Search

Donmoon Lee, Co-founder & Researcher

Tags
Research

Q.Cochl의 리서치 팀은 어떤 역할을 하나요?

소리 데이터를 인식하는 Cochl의 API와 SDK에 필요한 AI 모델을 만드는 일을 하고 있습니다. API, SDK 프로덕트 업데이트 시 필요한 새로운 소리를 추가하기 위한 후보군을 선택하고, 소리 데이터 수집 방식을 관리하고 있습니다. 때로는 직접 소리를 수집할 때가 있거든요. 그 외에도 알고리즘이 실제 상황에도 잘 적용될 수 있도록 최적화 하는 역할을 담당하고 있습니다.

Q. 그럼 좀 더 세부적으로 Cochl.의 리서치 팀에서 담당하고 계신 업무는 무엇인가요?

알고리즘을 개선하기 위해 다양한 실험을 시도하고 있습니다. 머신러닝 알고리즘의 경우 너무 표준화된 구조만 따르다보면 쉽게 도태될 수 있거든요. 그래서 Cochl이 가진 솔루션을 강화할 수 있도록 최신 머신러닝 알고리즘을 꾸준히 찾고 적용해보고 있습니다. 컴퓨터 비전이 머신러닝에서 가장 활발하게 연구되고 있는 분야라 주로 컴퓨터 비전 쪽 알고리즘을 참고하고 있습니다.

Q. 지금까지 진행했던 프로젝트 중 가장 재미있었던 프로젝트는 어떤 것인가요?

제가 진행하는 프로젝트는 보통 완성되기 까지 3~6개월 정도 걸리는 편입니다. 최근에는 음성검출 (Voice Activity Detection (VAD)) 프로젝트를 진행했고, 다행히도, 제가 기대한 만큼의 성능을 가진 모델을 학습하는데 성공하였습니다. 음성검출 (VAD)은 오디오 중 사람의 발화 음성이 있는지를 감지하는 것으로, 사람의 목소리를 대상으로 하는 연구 분야 중 하나입니다. 음성 인식 외, 사람의 목소리를 대상으로 하는 연구들은매우 흥미로운 영역이지만 아직까지는 나이나 성별과 같은 특장점들을 고려해야 하기 때문에 까다로운 편이라 아직 완벽하게 구현되기는 어렵습니다.

Q. 연구자의 관점에서 컴퓨터 비전과 음악 및 소리가 어떤 부분에서 차이가 날까요?

우선은 음악과 소리 데이터를 다루는 건 컴퓨터 비전 데이터를 다루는 것과 다릅니다. 적절한 소리 데이터 셋을 갖추는 것 뿐만 아니라 어떤 기준으로 데이터를 모아야 하는지를 정의 내리는 것 자체가 쉽지 않습니다. 가령 어떤 소리는 1초 정도의 길이고 어떤 건 5초 정도의 길이일 수 있잖아요. 컴퓨터 비전 영역은 MNIST, CIFAR 혹은 ImageNet등 무료로 사용할 수 있는 데이터셋이 많은 편입니다. 소리 데이터와는 다르게, 이미지 데이터셋은 일반적으로 256x256 픽셀 사이즈로 미리 가공됩니다. 소리 데이터의 퀄리티와 지속성에 문제가 있다는 건 예전부터 있던 문제 입니다. 그래도 최근에는 Google의 AudioSet이 10초정도의 길이를 가진 소리 클립들을 찾아볼 수 있게 되었습니다.
2018 Slush 참가 차 헬싱키에서

Q. 서울대학교에서 Music and Audio Research Group을 공부하게 된 계기가 뭔가요?

학부생때부터 음악 및 공학에 관심이 많았으며, 특히 음향학 (Acoustics)에도 관심이 많았습니다. 그러나 Acoustic 분야를 연구하시던 교수님께서 은퇴 하시게 되면서 그 연구를 이어나갈 분을 찾는게 쉽지 않았습니다. 운 좋게도 Acoustics를 연구했던 친구가 음악정보검색( Music Information Retrieval (MIR)) 연구를 제게 추천했고, 그렇게 Music and Audio Research Group과의 인연이 시작되었습니다. 석사까지만 연구를 계속 하려고 했으나 그 때 터닝 포인트가 찾아왔습니다. 빅데이터 대회에서 1등을 하게 되었는데 그게 제가 이 분야에서 잘 하고 있다는 자신감을 주었고, 박사까지 해보는 것으로 결심하게 되었습니다.

Q. 대학원생으로써 일과 공부의 균형을 어떻게 맞춰나가고 계시나요?

솔직히 쉽지 않은 일입니다. 이번 년도에 2개의 논문을 제출하고, 내년 8월에 졸업하는 것으로 계획을 세웠습니다. 일과 연구를 병행하는 건 쉽지 않은 일이라, 논문 제출이 밀리지 않기를 희망합니다.

Q. 더 뛰어난 연구자가 되기 위해서 어떤 능력이 필요할까요?

회사에서 뛰어난 연구자가 되는 것과 학교에서 뛰어난 연구자가 되는 것에는 차이가 있어 보입니다. 이 분야에서 특히나 회사에서 뛰어난 연구자가 되기 위해서는 1) 이 분야에 굉장한 흥미를 가져야 하고 2) 방향을 잃지 않기 위한 집요함 3) 아이디어를 실현하기 위한 프로그래밍 능력 이 필요합니다.

Q. Cochl.에 계시면서 가장 기억에 남는 순간은 언제셨나요?

뮌헨에서 열린 DCASE 2017을 기념하며
2017년 DCASE 대회에서 우승했던 게 기억에 남습니다. 2017년 3월이었고, 그 때 막 Cochl을 시작했었습니다. 6명의 공동 창업자 중 4명이 DCASE에 참여했습니다. 4개의 경쟁 부분에서 2개는 1등, 나머지 2개는 2등을 차지했었습니다. 공동 창업자 중 한 명이 기쁨의 눈물을 흘렸던 기억이 아직도 생각나네요.

Q. Cochl이 가지고 있는 문화나 혜택 중 어떤 부분을 가장 좋아하시나요?

제 경우에는 탄력적인 업무 시간을 가장 좋아합니다. 한국의 경우 아주 소수의 회사만 이런 탄력적인 근무제도를 운영하고 있는데 그런 부분에 있어 Cochl에서 일하는 건 행운입니다. 제가 필요할 때 학업에만 집중할 수 있거든요.

Q. 이루고 싶은 목표가 있나요?

우선은 박사학위를 따는 게 최우선 목표입니다. 논문을 제출하고 얼른 졸업하고 싶습니다.

Q. 사람들이 잘 알지 못하는 돈문님에 대한 것이 있을까요?

제가 거친 운동을 좋아한다는 점이요. 복싱도 했었고 2년 정도 주짓수도 했습니다. COVID-19 상황전까지 주짓수 대회를 나가기 위해 준비까지 했습니다.

Q. 일 이외에 즐기고 계시는 것이 있나요?

집에 있는 걸 좋아하는 편이고, 맛있는 음식을 만드는데 많은 시간을 쏟는 편입니다.

Q. 어떤 요리를 즐겨 하시나요?

두부면과 굴소스, 베이컨, 양상추를 볶아 먹고 있어요. 꽤나 맛있습니다.

Q. 어떤 소리를 제일 좋아하세요?

Hammond B3 오르간 소리를 좋아합니다.특히, Hammand 오르간이 가진 여러가지 음향 효과를 물리적으로 회전하는 Leslie 스피커가 전해주는 소리가 정말 좋다고 생각합니다.

Q. Cochl.의 리서치 팀에 관심 있을 분께 마지막 한마디를 하신다면?

작은 것에 매몰되기 보다는 큰 그림을 그리면서, 데이터 사이언티스트로서 특정 알고리즘이나 최신 기술에만 중점을 두기 보다는 균형적인 사고를 하는 분이셨으면 합니다. 이런 분들은 언제나 환영입니다!
돈문님께 더 궁금하신 부분이나 이 글과 관련해서 궁금하신 점이 있으시다면 careers@cochl.ai로 편하게 연락 부탁 드립니다