QUICK REVIEW

[논문 리뷰] The Cone of Silence: Speech Separation by Localization

Teerapat Jenrungrot, Vivek Jayaram|arXiv (Cornell University)|2020. 10. 12.

Speech and Audio Processing참고 문헌 63인용 수 25

한 줄 요약

이 논문은 파형 도메인 신경망을 사용하여 동시에 음성 분리 및 국소화를 수행하는 딥러닝 방법을 제안한다. 이 방법은 방향성 각도 창 내에서 음성을 분리하여 로그 시간 복잡도의 이진 탐색을 가능하게 하여, 훈련 중에 관찰된 것보다 더 많은 수의 화자조차도 국소화 및 분리할 수 있도록 한다. 이는 소음 환경에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Given a multi-microphone recording of an unknown number of speakers talking concurrently, we simultaneously localize the sources and separate the individual speakers. At the core of our method is a deep network, in the waveform domain, which isolates sources within an angular region $θ\pm w/2$, given an angle of interest $θ$ and angular window size $w$. By exponentially decreasing $w$, we can perform a binary search to localize and separate all sources in logarithmic time. Our algorithm allows for an arbitrary number of potentially moving speakers at test time, including more speakers than seen during training. Experiments demonstrate state-of-the-art performance for both source separation and source localization, particularly in high levels of background noise.

연구 동기 및 목표

알 수 없는 화자 수를 가진 소음이 많은 실제 환경에서 다수의 화자를 동시에 국소화하고 분리하는 문제를 해결하기 위해.
훈련 중에 볼 수 있었던 화자 수를 초월하여 테스트 시기 동안 더 많은 화자를 일반화할 수 있는 방법을 개발하기 위해.
다중 마이크 시스템에서 선택적 청취를 위한 실시간 소프트웨어 설정이 가능한 방향성 음성 필터링(즉, '침묵의 콘')을 가능하게 하기 위해.
기존의 빔포밍 및 고정된 방향성 방법의 한계를 극복하기 위해 동적으로 실시간으로 방향을 조정할 수 있도록 하기 위해.
높은 소음 조건에서의 강인성과 적응형 윈도우를 통한 움직이는 화자 지원을 입증하기 위해.

제안 방법

딥 네트워크는 특정 각도 창 θ ± w/2 내에서 음성 소스를 분리하도록 훈련되며, 여기서 θ는 관심이 있는 방향이고 w는 윈도우 크기이다.
네트워크는 원시 파형에 직접 작용하여 더 나은 분리 성능을 위해 세밀한 시간 및 주파수 정보를 유지한다.
각도 윈도우 크기 w를 지수적으로 감소시킴으로써 이진 탐색 전략을 통해 모든 소스를 로그 시간 내에 국소화할 수 있다.
마이크 어레이의 대칭성을 처리하기 위해 사전 이동 기법을 사용하며, 추론 시 임의의 소수 수를 지원한다.
움직이는 화자에 대해서는 짧은 시간 입력(1.5초)과 넓은 윈도우 크기(예: 23°)를 사용하고, 인접 영역 간의 소스를 연결한다.
실제 마이크 어레이 데이터로 미세 조정하여 실제 음향 환경과 소음에 대한 강인성을 향상시킨다.

실험 결과

연구 질문

RQ1딥 네트워크는 파형 도메인에서 사용자가 지정한 각도 창 내에서 음성 소스를 고립시킬 수 있는가?
RQ2각도 윈도우에 대한 이진 탐색이 다수의 화자를 효율적으로 로그 시간 내에 국소화하고 분리할 수 있는가?
RQ3이 방법은 테스트 시기 동안 훈련 데이터보다 더 많은 화자 수를 일반화할 수 있는가?
RQ4이 방법은 높은 소음 환경과 움직이는 화자에서 얼마나 잘 작동하는가?
RQ5정확한 지상 진리 정렬이 필요 없이도 이 방법을 실제 마이크 어레이에 적용할 수 있는가?

주요 결과

2명의 화자에 대해 13.9 dB, 8명의 화자에 대해 6.3 dB의 최신 기술 수준의 SI-SDRi 점수를 달성하여 고소수 수에서도 강력한 성능을 보였다.
중위 각도 오차는 2명의 화자일 때 2.0°에서 8명의 화자일 때 6.3°로 증가하여 소수 수 증가와 정밀도 저하 사이의 상충 관계를 보였다.
정밀도는 높은 편(8명의 화자일 때 0.966)이며 재현율은 0.78 이상을 유지하여 강력한 탐지 및 국소화 신뢰성을 보였다.
짧은 시간 입력과 영역 연결 기법을 사용하여, 테이블 주변을 걷는 사람과 같은 움직이는 화자들을 성공적으로 분리하고 국소화하였다.
실제 마이크 데이터로의 미세 조정은 강인성을 크게 향상시켜 ReSpeaker Mic Array v2.0과 같은 실제 장치에서도 효과적으로 작동할 수 있도록 하였다.
이 방법은 예상치 못한 화자 수에 일반화되며, 각도 윈도우 내의 음성 소스에만 집중함으로써 음악, 배경 소음 등의 비음성 소리도 효과적으로 처리할 수 있었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.