아이폰, 애플워치 그리고 픽셀 버즈 - 새로운 소리 감지 기능을 가지고 어떤 걸 해볼 수 있을까요?
(원문 : Amazon, Google and Apple recently Enabled Their Products To “Listen” for These 3 Reasons, 저자 : 이수영, 번역 : 장민서)
사람들은 소리를 통해 위험을 감지하도록 태어났습니다.
어두운 밤길 뒤에서 들려오는 걸음 소리를 신경 써본 경험이 있을 거예요. 막 잠자리에 들기 위해 누웠는데 침실 밖에서 들리는 소리에 신경이 곤두서본 적도 있을 거고요. 밤이라 잘 보이지 않을 때나 혹은 집에 혼자 있을 때, 주변 환경을 파악하기 위해서 소리에 집중하는 경우가 종종 있습니다.
하지만 우리가 좀 산만한 상황에 놓여있다면 어떨까요? 큰 헤드폰을 쓰고 음악을 듣고 있을 때 노크 소리가 잘 들리던가요? 혹은 노이즈캔슬링 모드를 틀어놓고 걷다 보면 뒤에서 차가 빵빵거리는 소리도 잘 듣지 못합니다. 만약 청력을 잃은 경우면 어쩌죠? 제가 집을 비운 사이 우리 집 개가 짖어 이웃 주민이 화가 난 경우에는요?
큰 기술회사들은 최신 사운드 AI 기술을 이용해 이러한 문제를 해결할 수 있는 돌파구들을 마련했습니다. - 그들은 이제 머신러닝 기반의 소리 탐지 기능을 자사의 제품에 탑재할 수 있게 된 거죠.
2019년을 시작으로 Amazon, Google 그리고 Apple은 앞다투어 소리 탐지 기능을 출시했고, 크게는 3가지를 목적으로 했습니다.
#1. 주택 방범: 부재 시 스마트 스피커가 대신 의심스러운 행동을 감시해줍니다.
2019년 5월 Amazon이 Alexa Guard를 출시하면서 Amazon Echo 스피커에 “알렉사, 나 지금 떠나 (Alexa ,I’m leaving)"라는 명령어를 추가했습니다.
유리가 깨진다던가, 일산화탄소 감지기 반응이나 문을 열 거나 발소리 등의 행동이 감지되면 휴대폰으로 알림을 보냅니다. 스마트 락을 통해 문을 잠그거나, 혹은 집에 있는 척하며 침입자를 쫓아내기 위해 조명을 조절한다거나, 의심스러운 행동이 감지되었을 때 개 짖는 소리나 사이렌이 울리도록 만들었습니다. 비슷하게 2019년 11월, Google도 자사의 스마트 스피커인 Nest Secure에 유리 깨지는 소리에 대한 감지 기능을 추가하였습니다.
실제로, 소리 인식 기술이 주택 보안영역에 적용된 건 예전부터 있었습니다. Alexa Guard와 같이 딥러닝 기반의 소리 인식 방법 이전에는, 전통적으로 사용되던 규칙 기반의 소리 인식 방법이 있었고 주파수의 대역폭이나 혹은 소리의 크기로 소리의 발생 여부를 감지했습니다. 기존 시장에 있던 유리 깨짐 탐지기나 화재 감지기 등은 이 방식으로 설계되었죠.
“규칙 기반" 시스템의 경우 이름에서 알 수 있듯이 인간이 설정해둔 지식과 규칙으로 이루어져 있습니다. 그래서 예외적인 패턴이나 요소들이 나타나는 복잡한 환경일수록 잘 작동하지 않는 경우가 많았습니다.
현대 딥러닝 기반 모델의 경우 스스로 학습이 가능하기 때문에 스스로 변화나 숨겨진 패턴들에 적응하며 최적화 할 수 있고 규칙 기반 모델보다 훨씬 더 뛰어난 성능을 가질 수 있습니다.
#2. 안전: 당신이 착용한 웨어러블 장비가 도움 드립니다.
스마트폰 제조사들은 계속 스마트폰과 함께 판매할 수 있는 웨어러블 장비나 액세서리를 만들어내고 있습니다.
그중에서도 무선 이어폰인 에어팟 1이 출시되면서 큰 인기를 얻게 되었고 Apple은 6천만 대 이상의 에어팟을 판매했습니다. 에어팟 유저들은 외부 소리를 차단해 혼자만의 세상을 온전히 느낄 수 있게 해주는 노이즈 캔슬링 기능에 특히나 열광했습니다.
멋진 기능임은 당연하지만, 당연하게도 노이즈 캔슬링 기능으로 인해 사고 발생률이 높아질 수 있다는 건 명실상부해졌습니다. 자전거나 운전을 하는 사람이라면 경험해본 적 있겠지만 차 경적이나 자전거 차임벨을 울려봐도 무선 이어폰을 착용한 보행자는 이를 듣지 못하는 경우가 왕왕 있습니다. 미국의 몇몇 주에서는 운전 중에는 운전자가 헤드폰이나 무선 이어폰을 착용하지 못하게 하는 법안을 발의했습니다.
무선 이어폰이 가져다줄 수 있는 위험을 알기에, 제조사들은 이런 위험을 방지하기 위한 대책들을 만들어 냈습니다. Google의 픽셀 버즈의 경우 2020년 8월 주의 알람 기능을 추가했습니다. 주변에서 아기 울음소리가 들린다거나 혹은 사이렌을 켠 응급차가 지나간다면, 픽셀 버즈는 즉시 볼륨을 낮춰 주변에서 어떤 일이 발생했음을 알아차릴 수 있도록 해줍니다.
그리고, 애플 워치는 코로나 상황에 대응하여 창의적이고 시간을 줄여줄 수 있는 기능을 더했는데 바로 손 씻기 타이머입니다. 이 기능을 켜두면, 애플 워치는 물 흐르는 소리를 듣고 적절한 시간 동안 손을 씻을 수 있도록 20초의 시간을 화면에 띄워줍니다.
#3. 접근 가능성: 일상의 삶을 풍족하게 만들어 줄 수 있도록 합니다.
청력감소는 소음, 노화, 질병 그리고 유전에 의해 발생하는 흔한 문제입니다. 전 세계적으로 4.7억 명 가량의 사람들이 청력 감소를 경험하고 있습니다.
청력 감소는 일상에 많은 부분에 영향을 줍니다. 가령, 청력 감소로 인해 수도꼭지를 잠그지 않았지만, 물이 계속 흐르고 있는 소리를 듣지 못해 계속 내버려 두는 상황같이 사소한 일들을 까먹을 수 있습니다. 음식이 완료되었다고 오븐에서 소리가 나도 모를 수 있고, 화재 경보가 울렸는지도 알아차리지 못할 수 있습니다. 아기 우는 소리나, 옹알거리는 소리, 웃는 소리.. 이런 일상의 소리를 듣지 못하는 건 크나큰 고통이라고도 말할 수 있습니다.
모바일 장치를 통해 이런 소리를 파악하고 청력 감소를 겪는 사람들에게 알림을 주는 것만으로도 많은 도움을 받을 수 있습니다. Apple과 Google은 업계 최초로 스마트폰에 소리 인식 기능을 탑재했고 접근성 기능을 추가함으로써 어떤 소리가 나는지 사람들은 알 수 있게 되었습니다.
iOS 사용자들은 11가지 소리에 대해서 특정 소리가 감지되면 알람을 받을 수 있습니다. 어떤 소리를 알 수 있는지 말씀드리자면 아래와 같습니다.
•
알람: 화재, 사이렌, 연기
•
동물: 고양이, 강아지
•
가정: 가전제품, 경적, 초인종, 노크, 물 흐르는 소리
•
사람: 아기 우는 소리
Android 사용자들은 비명과 유선전화 벨 소리 등을 포함한 11가지를 파악할 수 있습니다.
기술 회사들은 접근성을 중요한 가치로 생각하며 모든 사람이 각자의 편한 방식으로 장비를 사용할 수 있도록 보조하는 기술을 연구하기 위해 큰 노력을 들입니다. VoiceOver (Screen reader) 혹은 Voice Control 등의 접근성 기능들은 많은 사람이 접근성의 가치를 느낀 이후 주요 기능으로 떠올랐습니다. 스마트폰이 다양한 소리를 더 잘 인식하고 주변 환경을 이해할 수 있다면 소리 감지 또한 많은 사람에게 도움을 줄 수 있습니다.
더 똑똑한 미래로 나아가는 과정
사운드 AI 분야는 아직 초기 단계에서 성장하는 시장인 만큼 많은 기술 회사들이 잠재력을 높게 평가하고 이 분야에 투자하기 시작했습니다.
사운드 AI 연구 분야에서 세계에서 가장 큰 연간 워크샵 중 하나인 IEEE DCASE (Acoustic Scene과 Event를 탐지하고 분류하는 워크샵)는 원래는 학계에서만 알려졌으나 최근 FAANG(Facebook, Amazon, Amazon, Netflix, Google) 회사들의 관심이 쏟아졌습니다. 2019년에는 Facebook, Amazon, Google 그리고 IBM이 DCASE에 스폰서로 참가했으며 20년에는 Apple도 참가하게 되었습니다.
지금까지의 사운드 AI 기술이 접목된 사례는 Apple, Google, Amazon이 해왔듯 간단한 소리 인식 정도의 수준에 그쳤습니다. 그러나 앞으로 몇 년 안에는 그 이상의 성장이 이뤄질 전망입니다.
연구자들은 전자 기기가 주변 환경을 인식할 수 있는 센서로 어떻게 작동할 수 있는지 연구하는 데 많은 시간을 투자했습니다. 종종 상황 인식 (context-aware)라고 불리는 이 작업은 대규모 유비쿼터스 시스템을 구축하기 위해 개별 장치가 반드시 주변 환경을 인식해야 한다는 아이디어에서 비롯됩니다. (장치들이 어디 설치가 되어있고, 주변에 어떤 일이 어디서 일어나고 있는지 등 말이죠) 이런 정보를 바탕으로 어플리케이션과 장치들은 활발하게 의사 결정을 해나갈 수 있습니다.
소리는 무수히 많은 상황적 정보를 담고 있습니다. 장치들이 소리를 통해 스스로 주변 환경을 인식할 수 있다고 상상해 보세요. 당신이 타고 있는 차가 당신에게 지금 고속도로를 지나는지 혹은 복잡한 거리를 지나고 있는지, 혹은 새가 지저귀는 숲을 지나고 있는지 감지한 뒤 주행 모드를 변경 해야 하는지 알려줄 수 있습니다. 보안 카메라는 폭력적인 소음을 포착하고 범죄를 발견합니다. 스마트 전구 또한 당신이 잠든 것을 알고 자동으로 불을 끌 수 있습니다. 자율주행 차, 스마트 시티, 홈 오토메이션(home automation)과 의료 분야 등 상황 인식(context-aware) 기능이 적용된 어플리케이션의 확장은 무궁무진하게 뻗어 나갈 수 있습니다.
연구가 점점 심화함에 따라, 상황을 인식할 수 있는 소리 어플리케이션은 더 빠르고 큰 폭으로 성장할 것입니다. 어떤 일이 일어나게 될지 우리 같이 지켜봐요!