Skip to main content
QUICK REVIEW

[논문 리뷰] RemixIT: Continual self-training of speech enhancement models via bootstrapped remixing

Efthymios Tzinis, Yossi Adi|arXiv (Cornell University)|2022. 02. 17.
Speech Recognition and Synthesis참고 문헌 71인용 수 45
한 줄 요약

RemixIT는 사전 훈련된 교사 모델에서 유도한 의사추정 음성 및 잡음을 순열하고 재혼성하여 부트스트랩 훈련 믹스처를 생성함으로써 도메인 내 정제된 음성 또는 잡음 데이터에 의존하지 않는 자기지도 학습, 지속적인 자기훈련 프레임워크이다. 여러 데이터셋에서 최신 기술 수준의 성능을 달성하며, DNS에서 7.3 dB의 SI-SDRi와 WHAM!에서 6.9 dB의 SI-SDRi를 기록하여 도메인 내 정제된 타겟이 전혀 없음에도 불구하고 강력한 제로샷 도메인 적응성과 동적 의사타겟 정밀화를 통한 교사-학생 정밀도를 통한 지속적인 향상을 보여준다.

ABSTRACT

We present RemixIT, a simple yet effective self-supervised method for training speech enhancement without the need of a single isolated in-domain speech nor a noise waveform. Our approach overcomes limitations of previous methods which make them dependent on clean in-domain target signals and thus, sensitive to any domain mismatch between train and test samples. RemixIT is based on a continuous self-training scheme in which a pre-trained teacher model on out-of-domain data infers estimated pseudo-target signals for in-domain mixtures. Then, by permuting the estimated clean and noise signals and remixing them together, we generate a new set of bootstrapped mixtures and corresponding pseudo-targets which are used to train the student network. Vice-versa, the teacher periodically refines its estimates using the updated parameters of the latest student models. Experimental results on multiple speech enhancement datasets and tasks not only show the superiority of our method over prior approaches but also showcase that RemixIT can be combined with any separation model as well as be applied towards any semi-supervised and unsupervised domain adaptation task. Our analysis, paired with empirical evidence, sheds light on the inside functioning of our self-training scheme wherein the student model keeps obtaining better performance while observing severely degraded pseudo-targets.

연구 동기 및 목표

  • 기존 음성 강화 방법이 훈련을 위해 도메인 내 정제된 음성 또는 잡음 데이터가 필요로 하는 한계를 해결하기 위해.
  • 지속적인, 자료 효율적인 도메인 내 노이즈 믹스처에 대한 적응을 가능하게 하는 자기지도 학습 프레임워크를 개발하기 위해.
  • 사전 훈련된 도메인 외부 교사 모델에서 유도한 의사라벨을 활용하여 제로샷 및 반자율 설정에서의 도메인 이동 문제를 해결하기 위해.
  • 외부 모odal리티나 도메인 내 데이터에 의존하지 않고, 오직 도메인 내 노이즈 믹스처와 OOD 노이즈 소스만을 사용하여 강력하고 확장 가능한 도메인 적응을 가능하게 하기 위해.

제안 방법

  • 도메인 외부(OOD) 데이터에서 사전 훈련된 교사 모델이 도메인 내 노이즈 믹스처에 대해 추론을 수행하여 의사추정 음성 및 잡음 성분을 생성한다.
  • 추정된 음성 및 잡음 성분이 배치 내에서 무작위로 순열되어 재혼성되어 새로운 부트스트랩 믹스처를 형성하며, 이는 학생 모델의 증강 훈련 데이터로 사용된다.
  • 학생 모델은 신호 수준의 손실 함수(예: SI-SDR)를 사용하여 교사의 의사추정 정제된 음성을 추정하도록 회귀하도록 훈련되어 자기지도 학습이 가능해진다.
  • 교사 모델은 러닝 평균 또는 순차적 업데이트 프로토콜을 통해 학생의 가중치를 주기적으로 업데이트하여 의사타겟의 지속적인 정밀화가 가능해진다.
  • 확장 기능으로, 이분포 확률 분포를 사용한 샘플링 전략을 통해 도메인 내 노이즈 레코딩을 교사 추정치와 혼합할 수 있으며, 이는 성능 향상에 기여한다.
  • 이 프레임워크는 비지도 및 반지도 학습을 모두 지원하며, 어떤 분리 모델 아키텍처와도 호환된다.

실험 결과

연구 질문

  • RQ1자기훈련 프레임워크가 도메인 내 정제된 음성 또는 잡음 웨이브폼이 전혀 필요 없이 최신 기술 수준의 음성 강화 성능을 달성할 수 있는가?
  • RQ2의사타겟이 심각하게 손상된 상황에서 교사-학생 모델 간의 지속적이고 이중 방향의 지식 정밀도가 성능 향상에 어떻게 기여하는가?
  • RQ3교사가 추정한 성분의 부트스트랩 재혼성 방식이 실제 노이즈가 많은 음성에서의 도메인 이동에 얼마나 일반화되는가?
  • RQ4오직 도메인 내 노이즈 믹스처와 OOD 데이터만을 사용하여 효과적인 제로샷 및 반지도 도메인 적응을 달성할 수 있는가?
  • RQ5부트스트랩 재혼성 과정에 도메인 내 고립된 노이즈 레코딩을 통합하는 것이 성능에 어떤 영향을 미치는가?

주요 결과

  • RemixIT는 도메인 내 정제된 데이터가 전혀 없는 DNS 테스트 세트에서 7.3 dB의 SI-SDRi를 달성하였으며, 초기 OOD 교사(6.1 dB)와 최신 기술 수준의 베이스라인을 초월하였다.
  • WHAM! 데이터셋에서는 도메인 내 믹스처와 OOD 교사 추정치만을 사용하는 반지도 설정에서 6.9 dB의 SI-SDRi를 기록하여 이전의 자기지도 학습 방법을 뛰어넘었다.
  • DNS, LFSD, WHAM! 등 여러 데이터셋에서 일관된 성능 향상을 보였으며, 약한 OOD 교사에서 출발하더라도 성능 향상이 지속되었다.
  • 부트스트랩 재혼성 과정에 도메인 내 고립된 노이즈 레코딩을 통합하면 성능 향상이 더욱 뚜렷해지며, DNS에서는 SI-SDRi가 6.1 dB에서 6.4 dB로, WHAM!에서는 8.6 dB에서 9.0 dB로 향상되었다.
  • 실증적 및 이론적 분석을 통해 학생 모델이 극도로 노이즈가 많은 의사타겟을 기반으로 훈련하더라도 계속해서 향상됨을 확인하였으며, 이는 자기훈련 동역학의 강건성을 입증한다.
  • 제한된 도메인 내 데이터가 존재할 때, 지도 학습 기반 베이스라인과 유사한 성능을 달성하는 효과적인 제로샷 및 반지도 도메인 적응을 가능하게 하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.