Search

싸와디캅, Cochl.Scene - APSIPA 방문기

Tags
지난 11월 7-10일, 2022년 APSIPA ASC*가 태국 치앙마이에서 개최되었습니다. AISAIPA ASC는 아시아 태평양 지역의 신호처리, 정보분석에 관련한 연국자들이 모여 최근 연구 동향 및 각자의 연구 결과를 공유하는 국제 컨퍼런스 입니다. 특히 이번 컨퍼런스에는 Cochl Data팀의 일영님이 스페셜 세션의 발표자로 초대되셨습니다 학회에서 최근 Cochl의 연구 방향 및 성과에 대한 논문을 발표해주셨습니다. 오늘 이 글에서는 일영님께서 발표하신 내용의 일부와 그외 주목할 만한 논문들, 그리고 다양한 치앙마이에서의 경험을 공유 드립니다! * APSIPA ASC: Asia Pacific Signal and Information Processing Association Annual Summit and Conference
APSIPA ASC 2022 (홈페이지)

Cochl.Scene: 크라우드소싱을 이용한 음향 환경 데이터 수집

Cochl에서 발표한 논문은 최근 새롭게 공개한 음향 환경 분류(Acoustic scene classification) 데이터셋에 대한 내용을 담고 있습니다. 음향 환경 분류란, 다양한 장소에서 녹음된 소리를 분석해 해당 장소의 종류(카페, 숲, 도로 등)를 자동으로 인식하는 기술입니다. 이런 기술이 상용화된다면 각 사용자가 어떤 장소에 있는지를 인지하고 그에 적합한 동작을 수행하는 보다 똑똑한 AI 시스템을 만들 수 있습니다.
하지만 높은 분류 성능을 얻기 위해서는 각 장소들의 공간적 특성 (실내, 실외 등)과 주로 일어나는 사건들 (물 소리, 식기 소리 등) 다양한 측면에서의 분석을 소리만으로 수행해야 하기에 결코 쉽지 않은 문제라고 말할 수 있습니다.
일상 생활 속 다양한 장소 환경들 - 각 장소들은 저마다 독특한 환경음을 가지고 있습니다. (출처: freepik.com)
한편, 데이터 수집이 매우 어렵다는 점 또한 음향 환경 분류의 연구를 어렵게 하는 요소 중 하나입니다. 카페에서 나는 소리 데이터를 충분히 학습하려면, 몇 곳의 카페를 찾아가야 할까요? 각 지역별, 시간대 별로는 얼마나 다양하게 수집해야 할까요? 같은 장소에서 다양한 소리를 발생시켜가며 수집할 수 잇는 음향 이벤트 데이터와는 달리, 환경 데이터는 다양한 장소에 방문하고 머무르는데 필요한 시간 및 비용으로 인해 대량으로 수집하는 것이 어려웠습니다.
이러한 문제를 해결하고자 Cochl에서는 크라우드소싱을 이용해 빠르게 많은 양의 데이터를 모아 보는 방법을 시도했습니다. 크라우드소싱이란 특정한 몇몇 작업자만이 데이터 수집에 참여하는 것이 아니라, 수십 명 또는 수백 명 이상의 일반 참여자들에게 요청해 데이터를 모으는 방식입니다. 음향 환경 데이터의 경우 이러한 방법이 매우 효율적일 수 있는데요, 데이터 수집만을 위해 일부러 카페에 찾아가는 대신, 누구라도 지금 카페에 있는 사람이 ‘간 김에’ 데이터를 수집할 수 있기 때문입니다. 또한 대부분의 참여자들은 서로 다른 카페에서 데이터를 수집할 테니, 데이터의 다양성 역시 매우 높을 것으로 기대됩니다.
물론 참여자 분들은 해당 데이터 수집이나 관련 연구에 많은 경험이 없는 분들이 대부분이기에 효과적이고 높은 품질의 데이터를 얻기 위해서는 추가적인 고려사항이 필요합니다. 적절한 녹음 방법에 대한 가이드라인, 프라이버시 문제, 제공받은 데이터의 검수 절차 등 고려해야 할 부분이 많습니다. 이러한 문제를 해결하기 위해 저희는 크라우드소싱 기반 데이터 전문 기업인 셀렉트스타와 협업하여 효과적인 수집을 시도했으며 특히, Sound AI 연구원 <> 데이터 매니저 <> 크라우드소싱 참여자 간의 소통과 목표 공유에 초점을 맞췄습니다.
이러한 과정을 통해, 저희는 Cochl.Scene이라는 새로운 데이터셋을 공개할 수 있었습니다. 해당 데이터셋은 무려 831명의 크라우드소싱 참여자로부터 수집한 76,000개 이상의 데이터로 구성되어 있는데요, 이것은 기존의 데이터들과 비교해 양적으로 크게 증가된 것입니다. 이번에 발표한 논문에 이와 관련된 저희의 경험과, 얻어진 데이터셋, Cochl.Scene에 대해서도 상세히 설명해 두었으니 관심 있는 분들은 아래 논문을 참고해 보시는 것도 좋습니다.
(Il-Young Jeong and Jeongsoo Park, CochlScene: Acquisition of acoustic scene data using crowdsourcing, APSIPA 2022.)

APSIPA 2022 참석 후기

APSIPA 2022에는 약 350여 편의 논문이 발표되었습니다. 여러 논문이 동시에 발표되다보니 각 참여자들은 자신의 연구 분야와 비슷하거나 관심이 가는 논문들을 찾아서 발표장에 참석하는데요, 일영님이 흥미롭게 읽었던 논문 중 ‘블링키’에 관련한 논문을 소개 드립니다.
어떠한 소리가 방 안에서 들릴 때, 방의 각 위치와 음원과의 거리 및 소리의 반사에 따라 소리가 다르게 들리게 됩니다. 이러한 소리의 공간적인 분석은 소리 관련 흥미로운 연구 주제 중 하나인데요, 마이크는 자신의 위치에서의 소리만을 녹음하기에 공간적인 특성을 분석하기 어렵습니다. 그렇다고 방 안 곳곳에 마이크를 설치해서 녹음하는 것도 결코 쉬운 일은 아니구요.
이러한 문제를 해결하기 위해, 일본의 오노 교수님 연구실에서는 소리를 LED 빛으로 표현하는 ‘블링키’라는 작은 전자기기를 개발해 제안했습니다. 소리의 크기가 LED의 밝기로 표현되는 아주 단순한 기능의 기기로 블링키를 방안 곳곳에 가져다 두면 각 위치의 소리 세기에 따라 다른 밝기의 불빛을 한 ‘눈’에 볼 수 있습니다. 이를 카메라로 촬영하게 되면 각 공간의 음향 특성을 시각적 형태로 분석할 수도 있고요.
왼쪽 : 블링키 사용 예시 - 다양한 위치의 블링키가 소리의 세기를 표현하면 이를 카메라로 기록합니다. / 오른쪽 : 블링키 출처: R Scheibler et al., Multi-modal blind source separation with microphones and blinkies, arxiv. (link)
블링키 자체는 약 4년 전에 발표되었지만, 오노 교수님 연구실에서는 블링키의 활용성 및 정확성을 향상시키기 위한 연구를 계속해서 진행하고 있습니다. 이번 APSIPA에서는 조명이나 카메라 특성을 고려해 영상을 보정하여 블링키의 신호를 정밀하게 추정하는 방법, 그리고 단순히 소리의 세기뿐만 아니라 음색을 추정하는 방법을 발표했습니다. 자세한 내용이 궁금하신 분들은 아래 논문들을 체크해 보시는 것을 추천합니다.
Estimation of Transfer Coefficients and Signals of Sound-to-Light Conversion Device Blinky Under Saturation, K Nishida 등, APSIPA 2022
Compressed Sensing of Sparse Spectrum Using Distributed Sound-to-Light Conversion Device Blinkies, S Motoyama 등, APSIPA 2022

그 외 치앙마이에서는?

학회 기간동안 치앙마이에서는 랜턴 페스티벌이 열렸습니다. 사람들이 저마다 직접 만들거나 사온 향과 랜턴을 강물에 띄우기도 하고, 하늘로 날리면서 소원을 비는 행사가 페스티벌의 하이라이트였는데요, 저도 운 좋게 참여할 기회를 얻어 직접 랜턴도 만들고 소원을 빌기도 했습니다. 축제 동안 터지는 폭죽 소리 데이터도 열심히 모았구요.
받침을 꾸미고 → 위에 꽃으로 장식하면 완성! → 그리고 소원을 빌면서 강에 떠내려 보냅니다. 과연 일영님은 어떤 소원을 빌었을까요?
그리고 태국에 방문하는 동안 꼭 하고 싶었던 일정 중 하나로 야외 사격장에 다녀왔습니다. 야외 사격장에서 다양한 총소리를 수집하고 싶었는데요, 그 이유는 여러 소리 중에서 특히 총소리는 Cochl이 인식해야 할 가장 중요한 소리 중 하나입니다. 소리의 중요도에 비해 데이터를 수집하는 것은 정말 어려운데 우선 한국에는 사격장이 많이 있지 않을 뿐더러 총기 종류가 제한적이거나, 사격 장소가 실내라 울림이 너무 심한 환경일 때도 있어 고품질의 데이터를 수집하기가 녹록치 않았습니다. 치앙마이 시내에서 차량으로 30분 정도 거리에 야외 사격장이 있는 것을 알고, 녹음 장비를 한국에서 미리 챙겨가 다양한 총기 소리를 수집해 올 수 있었습니다.
이런 노력을 거쳐 수집된 총기 소리 데이터들은 데이터 팀을 거쳐 리서치 팀으로 잘 전달되었으며, Cochl의 서비스 성능 향상을 위해 잘 쓰여질 예정입니다.
약 1주일 간의 치앙마이 방문은 Cochl에게도 귀중한 경험이었습니다. 아시아 태평양 지역의 다양한 연구자들과 만나 최신 연구를 공유하는 자리를 가질 수 있었고, 좋은 날씨와 음식도 덤으로 즐길 수 있었습니다. 내년 APSIPA는 대만에서 개최될 예정이라고 하는데요, 관심 있으신 분들은 내년 학회에 참석을 고려해 보시는 것을 추천 드립니다