Skip to main content
QUICK REVIEW

[논문 리뷰] Unsupervised Sound Separation Using Mixture Invariant Training

Scott Wisdom, Efthymios Tzinis|arXiv (Cornell University)|2020. 06. 23.
Speech and Audio Processing참고 문헌 48인용 수 91
한 줄 요약

이 논문은 단일 채널 음향 분리를 위한 완전 비지도 프레임워크 MixIT를 소개합니다. MixIT는 혼합물의 혼합물로부터 학습하고, 반지도 데이터를 결합하여 반지도형 도메인 적응을 가능하게 합니다. MixIT는 음성 작업에서 감독 방법과 경쟁력 있는 성능을 달성하고, 대량의 레이블이 없는 실제 음원을 이용한 학습을 가능하게 합니다.

ABSTRACT

In recent years, rapid progress has been made on the problem of single-channel sound separation using supervised training of deep neural networks. In such supervised approaches, a model is trained to predict the component sources from synthetic mixtures created by adding up isolated ground-truth sources. Reliance on this synthetic training data is problematic because good performance depends upon the degree of match between the training data and real-world audio, especially in terms of the acoustic conditions and distribution of sources. The acoustic properties can be challenging to accurately simulate, and the distribution of sound types may be hard to replicate. In this paper, we propose a completely unsupervised method, mixture invariant training (MixIT), that requires only single-channel acoustic mixtures. In MixIT, training examples are constructed by mixing together existing mixtures, and the model separates them into a variable number of latent sources, such that the separated sources can be remixed to approximate the original mixtures. We show that MixIT can achieve competitive performance compared to supervised methods on speech separation. Using MixIT in a semi-supervised learning setting enables unsupervised domain adaptation and learning from large amounts of real world data without ground-truth source waveforms. In particular, we significantly improve reverberant speech separation performance by incorporating reverberant mixtures, train a speech enhancement system from noisy mixtures, and improve universal sound separation by incorporating a large amount of in-the-wild data.

연구 동기 및 목표

  • 합성 학습 데이터의 실제 소스에 대한 의존성을 극복하기 위해 단일 채널 음향 분리를 위한 비지도 학습의 필요성 동기화.
  • 참조로 사용할 혼합물의 혼합물을 이용하는 혼합물 불변 학습 프레임워크인 MixIT를 도입.
  • 스피치 분리, 스피치 개선, 보편적 소리 분리 작업에서 MixIT를 시연.
  • 도메인 적응을 위한 감독 손실과 MixIT를 결합한 반지도 학습의 이점을 보여줌.

제안 방법

  • 감독되지 않은 혼합물에서 작동하도록 순열 불변 학습(PIT)을 일반화하고, 더 큰 잠재 소스 집합으로 혼합물의 혼합물을 분리하는 MixIT를 도입.
  • 두 개 이상의 레이블이 없는 혼합물을 합산하여 MoMs(혼합물의 혼합물)를 구성하고, 이 혼합물의 추정 소스를 원래 혼합물로 다시 매핑하도록 이진 열을 가진 A 혼합 행렬로 분해 모델을 학습.
  • 신호 수준 손실(소프트 임계값이 있는 음의 SNR)을 사용하고 A에 대해 완전 탐색을 수행하여 다시 혼합된 재구성 손실을 최소화.
  • 선택적으로 MixIT를 감독 PIT와 결합한 반지도 설정에서, 같은 학습 배치에서 p%의 감독 데이터를 MixIT 비지도 데이터와 혼합하여 사용.
  • 출력들이 입력 혼합물의 합계가 되도록 시간 영역 컨볼루션 네트워크(TD-CN++ 스타일)와 혼합 일관성 프로젝션 계층을 채용.

실험 결과

연구 질문

  • RQ1완전한 비지도 학습 목표가 ground-truth 레퍼런스 없이 단일 채널 혼합물의 분리 성능을 근거로 삼을 수 있는가?
  • RQ2타깃 도메인 혼합물에 ground-truth 소스가 없을 때 MixIT가 도메인 적응 및 반지도 학습을 어떻게 가능하게 하는가?
  • RQ3MixIT가 음성 분리, 음성 향상, 보편적 소리 분리에 미치는 영향은 무엇인가?
  • RQ4MixIT를 제한된 감독 데이터와 결합하는 것이 실제로 최신 감독 방식과 경쟁하거나 도달할 수 있는가?

주요 결과

  • MixIT는 혼합물의 혼합물을 참조로 사용하여 완전히 비지도 단일 채널 분리를 가능하게 하며, 음성 분리 작업에서 감독 방법과 경쟁력 있는 성능을 달성합니다.
  • 감독 손실과 MixIT 손실을 혼합하는 반지도 학습은 특히 도메인 불일치 데이터에 대한 성능을 향상시키고 더 나은 교차 도메인 적응을 가능하게 합니다.
  • 음성 분리, 향상, 보편적 소리 분리에 걸쳐 MixIT는 도메인 적응에서 강한 이점을 보이고 대량의 레이블이 없는 실제 데이터를 활용할 수 있습니다.
  • 음성 향상에서 혼합물 레이블만으로 학습된 MixIT 기반 모델은 상당한 SI-SNRi를 달성하여 완전 감독 모델의 프록시 작업에서 약 76%에 접근합니다.
  • 보편적 소리 분리에 대해 MixIT를 사용한 인-더-와일드 데이터는 여러 구성에서 순수 감독 설정보다 의미 있는 개선을 보입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.