Search

Machine Listening이란 무엇일까요? (Part 1)

Tags
사람들에게 듣는 것은 쉬운 일이지만, 컴퓨터에겐 아직 어려운 일이랍니다.
(원문 : What is Machine Listening? (Part 1), 저자 : 한윤창, 번역 : 장민서)
인간의 기본 오감 중 하나인 청각
여행을 떠났을 때 저를 주로 침대에서 일어나게 만드는 건 창문을 통해 들어오는 햇살입니다. 그런데 다시 생각해보면 제가 ‘아, 여기 집이 아니구나'라고 느끼게 되는 건 익숙지 않은 새 소리가 들린다거나 묘하게 익숙하지 않은 베개 높이 인 것 같기도 해요.
청각은 사람들이 가진 기본적인 오감 중 하나입니다. 살아가면서 자연스럽게 우리가 가진 청각을 활용하게 되는데 정작 청각 자체를 눈으로 볼 수 없기 때문에 얼마나 중요한 감각 중 하나인지는 잊어버릴 때가 있습니다. 우리는 다른 사람과 이야기를 나누거나 다른 환경에서 나오는 자연스러운 음성 정보를 바탕으로 이 세상을 느끼고 인지합니다.
아마 음성 인식은 소리 인식 기술 중 산업 내에서 가장 널리 사용되고 있는 기술로 이를 통해 사람들은 컴퓨터와 좀 더 자연스럽게 대화할 수 있게 되었습니다. 예전에는 컴퓨터가 사람의 말을 이해하는 것을 굉장히 어려워했지만, 2010년을 기점으로 현대 딥러닝 기술이 등장하며 기술 수준이 급격하게 올라갔습니다.
기존에는 해당 도메인의 전문 엔지니어들이 직접 설계한 규칙을 기반으로 학습이 되었다면, 고급 딥러닝 방법을 바탕으로 다양한 기술의 수준이 빠르게 성장하였고 AI 시스템들은 사물을 인식하고 사람들의 말을 이해하는 수준까지 올라왔습니다.
컴퓨터의 청해 능력은 음성 인식 정도에 아직 머물러 있긴 합니다.
컴퓨터 비전, 자연어 처리, 음성 인식은 인공지능 분야에 있어 정말 중요한 기술들입니다. 그러나 여기서 우리는 한가지 간과하고 있는 부분이 있습니다 - 바로 ‘소리'입니다. 음성은 소리(sound)입니다. 우리가 매일 듣고 있는 다양한 소리를 생각해보세요. 그러나 여전히 기계들은 본인들 주변에서 발생하고 있는 다양한 소리를 잘 이해하지 못합니다. 몇 가지 예시를 들어보겠습니다.
동영상을 재생하면 비 내리는 소리라는 것을 알 수 있습니다. 이 소리를 듣는다면, 우산을 가지고 다녀야겠다 혹은 창문을 닫아야겠다고 생각하게 되죠.
발소리도 마찬가지입니다. 자세히 들어보면 이 소리를 통해 하이힐을 신은 사람이 적당한 속도로 다가오고 있다는 것을 알 수 있습니다.
웨스트민스터 사원에 있는 빅벤의 종소리는 도시의 모든 사람에게 시간을 알려줍니다. 사람들은 자연스럽게 본인의 삶 속에서 발생하는 소리를 듣고, 생각하며 행동합니다. 위의 예제들은 날씨나 신발의 종류, 혹은 시간 정도의 정보만 알려주지만, 이는 소리가 가져다줄 수 있는 다양한 상황적 정보의 일부에 불과합니다.
머신 리스닝(Machine Listening)은 소리(audio)로 부터 알 수 있는 비언어적 정보를 이해할 수 있는 시스템을 만드는 연구 분야입니다. 퀸 메리 런던 대학교의 머신 리스닝 연구소에서 공식적으로 정의한 머신 리스닝은 아래와 같습니다.
"머신 리스닝"(Machine Listening)이란 신호처리와 머신러닝 방법을 이용해 자연과 일상생활의 소리들, 그리고 음악을 이해하는 것을 의미합니다.
음성은 음향 정보의 극히 일부에 불과합니다.
사람의 목소리는 언어학적 정보를 포함하고 있습니다. 그러나 이 뿐만 아니라 나이나 성별, 감정 혹은 말하는 사람의 건강 상태까지 사람들은 추측할 수 있습니다. 음악은 장르나 분위기, 템포, 길이, 높낮이 등 조금 더 복잡한 정보를 포함하고 있습니다.
여전히, 음악과 음성은 우리가 일상 생활 동안 듣는 소리 일부에 국한되기는 합니다. 실제로, 사람들이 얼마나 다양한 소리를 구별할 수 있는지는 밝혀지지 않았고 소리와 소리 사이에는 명쾌한 경계선이 없습니다. 머신 리스닝 학계에서는 모든 종류의 소리를 주로 환경음이라고 말하고, 음향 환경(Acoustic Scenes)과 음향 사건(Acoustic Events)으로 구별합니다.
음향 환경(Acoustic Scenes)은 그 이름에서 알 수 있듯이 위치기반 정보로 버스, 공원, 도서관, 카페 혹은 시내를 예시로 들 수 있습니다. 짧은 길이의 소리만으로 구체적 위치를 알기는 어려워 주로 위치기반 정보를 확인하기 위해서는 적어도 10초 이상의 소리 정보가 필요합니다. 반대로, 음향 사건(Acoustic Events)은 발생하고 있는 사건에 대해 알려 줄 수 있는 정보를 담은 짧은 길이의 소리를 말하며, 유리가 깨졌다거나 누가 노크를 한다거나, 차의 경적이나 개 짖는 소리 등을 포함합니다. 0.1초 정도로 아주 짧을 수 있지만, 물이 흘러가는 소리처럼 아주 길 수도 있습니다.
좀 더 가시적으로 이해할 수 있는 컴퓨터 비전 분야를 예시로 한번 비교해보겠습니다.
컴퓨터 비전 분야의 광학 글자 인식은 언어학적 정보를 바탕으로 한다는 점에서 머신 리스닝의 음성인식과 그 결이 비슷하다고 볼 수 있습니다. 얼굴 인식은 특색있고 고유한 정보를 기반으로 하기에  음악 검색 혹은 음성 인증에 대응할 수 있습니다. 마지막으로, 객체 검출의 경우 음향 환경/사건 감지와 유사한데 이는 다양한 형태의 많은 타깃을 식별하는 데 사용되기 때문입니다.
2017: 머신 리스닝의 한 획을 그은 해
물론 수십 년 전 부터 머신 리스닝이 연구되어왔지만, 실제 상황에 적용되기 까지는 아주 멀었습니다. 단순한 음성 인식만이 가능했고, 그 수준도 정확하지 않아 오래된 음성 인식 시스템만큼이나 성능이 좋지 않았습니다.
최신 인공신경망 알고리즘들이 도입된 이후에도 다른 기술들과 다르게 딥러닝 기술을 단순히 적용한다고 해서 기존 접근 방식을 상회하는 결과를 얻을 수 있는 것은 아니었습니다. 그러나 2017년, 기존 방법을 능가하는 한 차례 혁신을 연구원들은 이뤄낼 수 있었습니다.
실험 환경이 살짝 달랐기에 아주 동일한 조건에서 실행되었다고 보긴 어렵지만, 2017년의 환경이 조금 더 복잡했습니다.
미국전자전기공학회(IEEE)에서 매년 주관하는 DCASE(Detection and Classification of Acoustic Scene and Events) 워크샵에서 2013년 76%에 불과하던 환경 분류의 정확도 수치가 17년 92%로 올라갔습니다. 이 결과는 매우 유의미한데 2016년까지 10위권에 드는 시스템들이 모두 전통적인 방식으로만 환경을 분류해왔기 때문입니다. 단순한 환경 분류 뿐만 아니라 다른 분야에서도 딥러닝 방식으로 정확도 시스템들이 변경되었습니다.
딥러닝이 세상의 모든 문제를 해결해줄 수는 없습니다만 2017년은 결과적으로 연구자들이 지속적으로 해왔던 노력이 결실을 맺었다는 점에서 의의를 두고 싶습니다. 최신 머신러닝 기술을 어떻게 활용할 수 있는지 방법을 찾아 한층 더 인간에 가까운 머신 리스닝 시스템을 만들 수 있었기 때문입니다.
도메인 지식의 필요성
오디오 클립을 기존의 머신러닝 모델에 집어 넣어 간단한 음성 인식 데모를 실험해보는 건 가능할지 모릅니다. 그러나 간단한 인식 정도라면 기존에 진행되어왔던 방식을 사용해도 큰 차이가 없습니다. 극도로 제한된 환경에서 소스를 넣고 동작시키는 것과 현대 머신 리스닝은 달라야 합니다.
진화된 머신러닝 기술은 우리의 일상에 긍정적인 영향을 줄 엄청난 기회를 열어주었습니다. 차세대 머신 리스닝은 실생활에 사용될 수 있는 일반적인 청각 지능을 목표로 해야 하며, 매번 새롭게 무언가를 만들어 나가기 보다는 기존의 것을 개선시킬 수 있는 방향으로 나아가져야 합니다. 그러기 위해서는, 신호 처리나 인지 과학, 음악 ,심리 음향학, 음향학, 머신 러닝 등 다양한 분야의 전문성을 기반으로 가져가야 합니다. 실제 상황과 사람의 소리에 대한 인식은 매우 복잡한 요소니까요.
결론
이번 글을 통해 머신 리스닝의 일반적인 개념에 대해서 한번 설명드릴 수 있었습니다. 다음 글에서는 머신 리스닝의 많은 부분 중 일부인 음악 정보 검색 기술(Music Information Retrieval, MIR)에 대해서 한번 다뤄보겠습니다.