Search

우리의 소리를 찾아서

Tags
안녕하세요, Cochl입니다 :) 저희가 작성한 아티클을 유심히 읽어 보신 적 있으신가요? 읽어 보셨다면 Cochl은 실생활에서 사용할 수 있는 Sound AI 개발하고 있다는 점을 누구보다 잘 아실 거라고 생각됩니다. 뛰어난 성능을 가진 Sound AI를 개발하기 위해서는 충분한 다양성을 가지고 있는 유의미한 소리 데이터를 모으는 것이 중요하다는 점을 계속 강조해왔습니다.
우리가 모으고 있는 데이터가 Sound AI의 퀄리티에 직접적인 영향을 주기에 어떻게 하면 높은 퀄리티의 데이터를 많이 수집할 수 있을까를 늘 데이터팀은 고민하고 있습니다. 기존에 공개된 데이터를 최대한 확보하는 것은 물론, 외부 데이터 수집 업체들과의 협업, 크라우드소싱 방식의 데이터 수집까지 우리가 원하는 데이터를 모으기 위해 다양한 방법들을 활용하고 있습니다. 그러나, 이러한 일반적인 방법으로는 수집하기 어려운 상황도 분명 존재합니다. 수집 난이도가 너무 높거나 원하는 정확한 품질의 데이터가 필요한 경우 등의 상황에서는 해당 소리가 실제로 발생하는 곳을 직접 찾아가 녹음하거나 우리가 직접 소리를 발생시키기도 합니다.
현재 Cochl에서는 자동차에 적용될 수 있는 소리인식모델을 개발 중이고, 차량 파손과 관련된 소리 데이터들이 필요했습니다. 다만 이런 특수한 소리의 경우 수집 난이도가 높아 저희가 원하는 소리를 찾기가 어렵고, 고성능 모델 개발을 위해서는 직접 수집 하는 경우가 가장 정확합니다. 저희 팀이 아주 부자라면 저희가 소유한 차를 파손시켜가며 데이터를 수집할 수 있었겠지만, 아쉽게도(?) 그러지 못해 이번 소리 데이터 수집을 위해 데이터팀의 일영님, 수영님께서 폐차장을 방문해봤습니다.
사실 폐차장 방문은 이번이 3번째인데요, 기존 두 번째 방문까지는 저희의 가설을 실험해보고자 하는 성격이 강했습니다. 이렇게 수집했을 때 우리가 생각하는 유의미한 결과가 나오는지, 녹음의 퀄리티가 우리가 생각하는 수준에 이르렀는지 등을 꼼꼼하게 확인해본 뒤 이번 방문이 결정되었습니다. 앞선 두 번의 방문이 저희가 고민했던 부분에 대한 답을 주었기에, 이번엔 가능한 “우리가 필요로 하는 데이터를 많이 모아보겠어!”라는 목적의식을 가지고 하루 동안 데이터를 모아보았습니다.
제가 앞서 데이터의 ‘다양성’을 말씀드렸는데, 이번 녹음에도 다양한 변수들을 고민해가며 녹음을 진행했어야 했습니다. 이번에 고려한 변수는 아래와 같습니다.
1.
녹음 장비의 다양성 → 어떤 장비를 사용했는지에 따라 다르게 녹음될 수 있습니다. 이 부분은 항상 기본적으로 고려하고 있어 5~6가지의 녹음 장비를 가져가 같은 소리라도 다른 장비들에서는 어떻게 녹음되는지를 확인합니다.
2.
녹음 위치의 다양성 → 어디에 마이크가 설치되는지에 따라 결괏값이 달라질 수 있기에 어떨 때는 차량의 앞좌석에 설치하거나 뒷좌석에 놔둘 때도 있고, 차량 외부에다가 두고 녹음을 진행하기도 합니다.
3.
파손 방식의 다양성 → 차량 파손 시 들리는 소리를 수집하기 위해 폐차장을 방문하게 된 경우라 온갖 방법을 동원해 차량을 파손했습니다. 같은 유리를 깨더라도 장도리로 내려쳐 보고, 망치로 깨보고, 아이스픽으로 콕콕 찍어보는 등 최선을 다해 부숴보았습니다.
자동차 유리 깨보는 건 또 처음이라..
“유리 깨지는 소리를 굳이 폐차장 가서 확인해봐야 했어? 시간 낭비 아니야?”라고 생각하실 수도 있습니다. 다만 유리잔을 깨는 소리와 차량 유리를 깨는 소리 자체가 완전히 다르기에 이번 방문은 유의미하다고 평가를 할 수 있어요! 일반적으로 차량 유리의 경우 필름으로 선팅이 되어 있는 경우가 많기에, 한 번에 깨지지 않고 필름에 고정되어 뜯어지듯이 깨지는 소리가 납니다. 같은 유리라고 같은 소리가 나진 않습니다.
물론 어떤 유리 깨지는 소리가 들릴 때, 이 소리가 창문 깨지는 소리인지 혹은 자동차 창문 깨지는 소리인지 아니면 거울이 깨지는 소리인지 알기 위해서는 더 많은 실험이 필요합니다. 다만 한 가지 희망적인 것은 그 모든 소리가 ‘유리가 깨지는 소리다’ 수준으로는 판별 가능하다는 것입니다. 그런 측면에서는 완전 다른 소리가 유리 깨지는 소리라고 위양성으로 보이는 것보다는 아직은 이해할 수 있는 범위 내의 오차라고 생각됩니다. 이 부분에 대해서는 저희가 보다 다양한 소리 데이터를 수집하고 분석함으로 개선될 수 있는 여지가 있다고 팀은 판단하고 있습니다.
이거 방탄 유리야~~!
지난 사격장을 이어 이번 폐차장 방문이 부디 Cochl이 만들고 있는 모델 성능 개선에 많은 도움을 주었으면 합니다. 어떤 소리 데이터를 직접 수집할 수 있을까 현재 아이디어를 모으는 단계로 점차 병원이나 학교 등 일상적으로 자연스러운 환경에서 소리가 발생하거나 소음이 있는 환경에서도 소리 데이터 수집을 진행해보고 싶다는 생각을 밝혀주셨습니다. 이렇게 직접 수집하는 경우에는 최대한 실제 상황과 유사한 소리가 발생하도록 노력하지만 약간의 아쉬움이 남는 부분도 있습니다. 가령 폐차장이라는 특수한 공간과 여기서 발생하는 소음의 특성이 일반적인 상황과는 아주 유사하진 않을 수 있기 때문입니다. 또한 주로 밤늦은 시간에 범죄가 발생한다고 가정했을 때 낮에 수집한 소리와는 다를 수도 있습니다. 데이터 팀에서 높은 품질의 데이터 수집을 위해 최선을 다했다면, 이러한 남은 문제들은 Cochl의 우수한 리서치팀이 바통을 넘겨받아 해결하는 데 매진합니다. 부탁해요 리서치팀!!
저희 Cochl은 AI에 인간처럼 듣고 판단할 수 있는 능력을 모델을 통해 학습시키고, 사람들에게 도움을 줄 수 있는 서비스로 만들어내고 있습니다. 아직 AI가 인간과 같은 수준으로 모든 소리를 판별하기엔 많은 시행착오가 더 필요하지만 다양한 환경과 데이터를 바탕으로 열심히 가르치고 있습니다. 어떤 데이터가 더 필요할까, 어떤 학습 방식을 적용해 볼 수 있을까, 어떻게 Sound AI가 우리의 실생활에 접목이 될까 이런 꼬리에 꼬리를 무는 고민을 Cochl은 매일 마주하고 있습니다. 어디선가 갑자기 걸음을 멈추고 귀를 쫑긋 세우고 있는 사람을 봐도 너무 놀라지마세요!