음악, 가장 특별한 소리 중 하나
음악은 예술이지만, 아주 과학적인 예술입니다.
음악은 먼 옛날부터 사람들의 곁에서 함께 해왔습니다. 여기서 음악이 무엇인지 정의할 필요는 없지만 어쨌거나 멜로디나 리듬이 느껴지는 모든 소리는 통상적으로 음악이라고 여겨집니다. 음악을 통해 항상 기쁨을 느끼지 않는다고 해도 어떤 특정 감정을 느끼게 되는 건 말할 것도 없습니다.
음악이 우리와 함께 해왔음은 원시시대의 유물들을 통해서도 알 수 있습니다. 인류 최초의 손도끼가 170만년 전, 그리고 창이 50만년 전에 등장했는데 악기 또한 4만년 전에 처음 등장했다는 것을 추론할 수 있습니다. - BBC Earth, 2014
인류 최초의 손도끼와 창보다는 상대적으로 가깝게 느껴지지만 어쨌거나 4만년도 굉장히 먼 옛날이긴 합니다.
음악은 예술이지만 인간들에 의해 많은 규칙들을 부여받았습니다. 음악 정보 검색 기술(Music information retrieval, MIR)은 다양한 신호 처리와 머신 러닝 기술들을 통해서 음악을 보다 과학적으로 분석하고 정량화 하는 학문입니다. “검색(retrieval)”이라는 단어가 포함되어 있지만, 더 넓은 범위에서 음악 합성(music synthesis), 생성(generation), 그리고 음악 인터페이스(musical interface)등을 함축하고 있습니다.
융복합적인 주제를 다루고 있기 때문에 음악과 신호 처리에 대한 높은 이해 수준이 필요합니다. 대부분이 현대 서구권 음악 구조를 따르고 있으며, 음악 정보 검색 기술에 대해 몇 가지 예시를 들어 보겠습니다.
음악 정보 검색 기술 더 들여다 보기
이름에서 무슨 의미를 가졌는지 바로 알 수 있지만, 각 주제별로 간단하게 설명 드리겠습니다.
•
Key detection - 음악의 키를 찾습니다. 예를 들어 장/단조와 C, D, E, F, G, A 등입니다.
•
Mood Classification - 각성도(arousal)(차분함-흥분된)과 유의성(valence)(부정적-긍정적)의 조합을 바탕으로 음악의 분위기를 분류합니다.
•
Tempo Estimation - BPM (Beat per minute)을 통해 음악의 빠르기를 측정합니다.
•
Beat Tracking - 비트와 템포를 구별해야 합니다. 듣는 사람이 들으면서 손이나 발로 장단을 맞출 수 있는 규칙적으로 반복되는 리듬입니다.
•
Source Separation - 여러 레이어 (보컬, 베이스, 드럼, 기타)로 합성되어 있는 음악을 분리합니다.
•
Pitch Estimation - 피치는 음의 높낮이를 말합니다.소리의 기본 주파수와 관련이 있으며 일반적으로 반음계로 나뉩니다.
•
Genre Classification - 곡의 장르(팝, 락, 클래식, 힙합, 재즈)가 어떤지 파악합니다
•
Onset Detection - 온셋은 음의 시작점을 의미합니다. 바이올린이나 첼로같은 악기의 경우 부드럽게 시작하며, 피아노나 드럼 기타의 경우 묵직하게 시작됩니다.
•
Instrument Identification - 어떤 종류의 악기가 음악에 사용되었는지를 파악하는 것으로 몇 개의 악기가 사용되었는지 등에 대한 사전 정보 없이 파악하는 내용입니다.
•
Downbeat Estimation - 비트 트래킹과 유사하지만 소절의 첫 번째 비트인 다운비트를 찾는 것입니다.
•
Melody Extraction - 멜로디는 메인 악기나 보컬에 대한 음의 연속을 의미합니다.
•
Query by Humming - 허밍음을 바탕으로 특정 음악을 찾습니다.
•
Structure Segmentation - 음악은 벌스(verse)와 코러스(chorus) 등 여러 부분으로 나눌 수 있습니다.
•
Audio Fingerprinting - 데이터베이스에서 음악의 제목을 찾기 위해 음악 내 특정한 부분을 추출합니다.
•
Cover Song Identification - 원곡자가 아닌 다른 사람에 의해 커버된 노래를 찾습니다. 원곡과 유사할 수 있으나, 편곡자 특유의 스타일이 반영되거나 다른 악기로 연주될 수 있습니다.
음악 정보 검색 기술의 최신 유행 트렌드
음악 정보 검색 기술 알고리즘의 성능은 점점 빨라지고 있고, 더 복잡하고 어려운 문제를 풀어나가는 것을 목표로 하고 있습니다. 많은 연구는 원래 미디(Musical Instrument Digital Interface, MIDI)를 기반으로 해왔습니다. 미디는 파형과 비교해 활용하기 훨씬 쉬운 기호 데이터입니다. 다만 실제 데이터들이 원시 파형으로 존재해 미디를 사용한 실험은 더는 찾아보기 어렵습니다.
단선율 소리 분석 (Monophonic sound analysis)도 이미 연구자들이 해결한 문제입니다. 단선율은 다른 소리와 겹치지 않는 단독 멜로디를 의미하며 다선율은 여러 음이 합쳐진 것을 의미합니다. Onset detection이나 pitch detection을 통한 단음을 표기하는 것은 매우 정확한 수준으로 올라왔기에 이제는 더 어려운 다성음을 분석하는데 더 집중하고 있습니다.
다른 연구 분야와 마찬가지로, 틀을 깨기 위해 딥러닝을 도입하는 경우가 많아졌습니다. 딥러닝의 적용을 통해 음악 정보 검색 기술 알고리즘의 성능이 큰 폭으로 성장했고, 새로운 주제들에 대한 가능성 또한 열어줬습니다. 많은 연구자가 자동 생성 모델을 통해 작곡이나 작사에 도전하는 만큼 장르나 무드와 같이 모호한 분야도 머신러닝을 통해서 더 쉽게 측정이 가능해졌습니다. 특히나 음원 분리 성능의 수행능력은 큰 폭으로 성장하여 연구에서만 쓰일 뿐만 아니라 실제 상황에 적용될 수도 있습니다.
상업적으로 성공한 음악 정보 검색 기술 알고리즘
오래된 역사에도 불구하고, 상업적인 성공을 거둔 경우는 많지 않습니다. 첫 번째는 주파 변조 기술 (Frequency Modulation, FM)을 사용하는 디지털 신디사이저입니다. 이전에는, 디지털 악기들이 아날로그 회로를 사용했기에 컨트롤하기 어려웠던 반면 주파 변조 기술은 쉽게 제어 가능한 음색을 만들 수 있는 간편한 방법을 제시하였고, Yamaha 사에 큰 상업적 성공을 안겨주며 디지털 음악의 새 시대를 열었습니다.
음악 정보 탐색 기술을 이용해 또 한 번의 상업적 성공을 거둔 케이스는 뮤직 핑거프린팅 기술입니다. Avery Wang이 만든 Shazam이라는 서비스가 현대 뮤직 핑거프린팅 알고리즘(modern music fingerprinting algorithm)을 활용했고 사람들은 카페나 라디오에서 나오는 음악을 Shazam을 통해 검색할 수 있었습니다. Shazam의 시끄러운 상황에도 잘 작동하는 빠른 검색 기능을 바탕으로 큰 성공을 거둘 수 있었고 2018년 Apple에 인수됩니다.
뮤직 핑거프린팅 기술은 저작권 침해 여부를 탐색하는 데도 사용됩니다. Youtube나 Twitch 같은 주요 비디오 플랫폼 회사들의 경우 업로드되는 영상들을 자동으로 체크하고 음악 저작권을 보호하기 위해 저작권에 위반된 소리를 제거하거나 혹은 사용 가능한 음악으로 변경해줍니다.
물론 산업에서 사용하는 다양한 알고리즘들이 더 있습니다. Beat tracking algorithm의 경우 디제잉 하는 과정에서 비트 매칭 시 사용되며, 악기를 튜닝할 때 pitch estimation 기술은 디지털 튜너에 탑재되어 있습니다. 최근에는 genre and mood estimation 또한 자동 메타 데이터 생성 및 음악 추천에 사용됩니다. 연구실 밖으로 나가 상업화될 수 있는 음악 정보 검색 기술 알고리즘은 여전히 많이 남아 있습니다.
환경음과 음악 정보 검색 기술과의 관계
관점에 따라 환경음과 음악은 달라 보일 수 있지만 알고 보면 유사한 부분도 많습니다. 음악이 보컬, 기타, 드럼, 베이스 등 여러 소리 레이어가 합쳐진 것이라면 환경음 또한 다양한 소리로 구성돼 있습니다.
예를 들어, 우리가 도시를 걸어 다닐 때, 차가 지나가거나 사람들이 대화 나누거나 소방차가 지나가는 이 모든 소리를 한꺼번에 들을 수 있습니다. 이런 복합적인 환경음은 여러 악기가 합쳐진 다성 음악과 같다고 볼 수 있습니다. 또한 다양한 악기의 주파수와 환경음이 모두 다르기 때문에 둘 다 넓은 주파수 범위를 사용하는 것도 유사합니다.
다른 한편으로는, 음성 인식과 비교하자면 환경음과 음악은 뚜렷한 차이점이 있습니다. 조용한 환경에서 한 번에 한 사람만 말을 하고 있다고 가정한다면 이는 매우 한정된 주파수 범위 내에 있습니다. 또한 환경음과 음악이 문법이 없는 반면 사람이 말하는 경우에는 언어학적 정보의 정확성을 높이기 위해 문법의 중요성이 두드러집니다.
결론
이 글은 음악 정보 검색 기술의 개념과 예제, 상업적으로 성공한 음악 정보 검색 기술 알고리즘, 왜 환경음과 음악이 비슷한지를 다루고 있습니다. 다음 글은 머신 리스닝을 다루는 마지막 글로 전통적인 소리 인식과 현대 머신 리스닝이 어떤 점이 다른지, 왜 다루기 어려운지, 그리고 어떻게 발전해나가고 있는지를 알아보겠습니다.