Skip to main content
QUICK REVIEW

[논문 리뷰] Universal Source Separation with Weakly Labelled Data

Qiuqiang Kong, Ke Chen|arXiv (Cornell University)|2023. 05. 11.
Speech and Audio Processing인용 수 8
한 줄 요약

이 연구는 AudioSet의 약하게 라벨링된 데이터만 사용하여 보편적 소스 분리 시스템을 학습시켜 수백 개의 소리 클래스를 깨끗한 소스 없이 분리할 수 있게 한다. 여러 데이터셋에서 강한 SDR 개선을 달성하고, 앵커 세그먼트를 기준으로 한 계층적, 쿼리 기반 분리를 도입한다.

ABSTRACT

Universal source separation (USS) is a fundamental research task for computational auditory scene analysis, which aims to separate mono recordings into individual source tracks. There are three potential challenges awaiting the solution to the audio source separation task. First, previous audio source separation systems mainly focus on separating one or a limited number of specific sources. There is a lack of research on building a unified system that can separate arbitrary sources via a single model. Second, most previous systems require clean source data to train a separator, while clean source data are scarce. Third, there is a lack of USS system that can automatically detect and separate active sound classes in a hierarchical level. To use large-scale weakly labeled/unlabeled audio data for audio source separation, we propose a universal audio source separation framework containing: 1) an audio tagging model trained on weakly labeled data as a query net; and 2) a conditional source separation model that takes query net outputs as conditions to separate arbitrary sound sources. We investigate various query nets, source separation models, and training strategies and propose a hierarchical USS strategy to automatically detect and separate sound classes from the AudioSet ontology. By solely leveraging the weakly labelled AudioSet, our USS system is successful in separating a wide variety of sound classes, including sound event separation, music source separation, and speech enhancement. The USS system achieves an average signal-to-distortion ratio improvement (SDRi) of 5.57 dB over 527 sound classes of AudioSet; 10.57 dB on the DCASE 2018 Task 2 dataset; 8.12 dB on the MUSDB18 dataset; an SDRi of 7.28 dB on the Slakh2100 dataset; and an SSNR of 9.00 dB on the voicebank-demand dataset. We release the source code at https://github.com/bytedance/uss

연구 동기 및 목표

  • 임의의 소스를 단일 모델로 처리할 수 있는 보편적 소스 분리(USS)를 구현한다.
  • 대규모 약하게 라벨링된 데이터(AudioSet)를 활용하여 깨끗한 소스 데이터 의존성을 극복한다.
  • 계층적이고 온톨로지 인식 접근을 통해 활성 소리 클래스를 자동으로 탐지하고 분리한다.
  • 조건 신호가 분리를 안내하는 쿼리 기반 분리 프레임워크를 개발한다.
  • 다양한 쿼리 네트, 앵커 채굴 전략, 학습 스킴이 USS 성능에 미치는 영향을 조사한다.

제안 방법

  • 약하게 라벨링된 데이터를 활용하는 4단계 USS 파이프라인을 제안한다: 샘플링, 앵커 세그먼트 채굴, 쿼리 임베딩 생성을 위한 오디오 태깅, 혼합물 기반의 조건부 분리기 학습.
  • 사전학습되었거나 미세조정된 오디오 태깅 모델(PANNs 또는 HTS-AT)을 통해 채굴된 앵커 세그먼트를 사용하여 학습에 적합한 짧고 활성 가능성이 높은 세그먼트를 생성한다.
  • FiLM으로 변조된 임베딩으로 조건화된 ResUNet 기반 소스 분리기를 사용하며(하드 원핫, 소프트 확률, 잠재 임베딩, 학습 가능 임베딩).
  • 웨이브폼 L1 손실로 엔드투엔드 학습하고 에너지 기반 데이터 증강을 적용하여 앵커 페어 간 에너지를 균형 있게 조정한다.
  • 계층적 AudioSet 온톨로지를 채택하여 자동으로 레벨별 활성 소리 탐지 및 분리를 수행하고 수준별 세분화에서 USS의 확장성을 가능하게 한다.
Figure 1: The standard architecture of deep-learning-based audio source separation model. Left top: synthesis-based separation model. Left bottom: mask-based separation model. Right: the general type of frequency-domain separation model.
Figure 1: The standard architecture of deep-learning-based audio source separation model. Left top: synthesis-based separation model. Left bottom: mask-based separation model. Right: the general type of frequency-domain separation model.

실험 결과

연구 질문

  • RQ1USS를 약하게 라벨링된 데이터만으로 학습시켜 수백 개의 소리 클래스를 분리할 수 있는가?
  • RQ2앵커 세그먼트 채굴과 다양한 쿼리 임베딩이 분리 안내에 얼마나 효과적인가?
  • RQ3계층적 온톨로지 기반 탐지가 AudioSet의 다양한 레벨에서 자동적이고 확장 가능한 USS를 가능하게 하는가?
  • RQ4AudioSet만으로 학습했을 때 다양한 데이터셋에서 SDRi 이득은 얼마인가?
  • RQ5데이터 증강과 에너지 균형 조정이 분리 성능에 어떤 영향을 미치는가?

주요 결과

  • AudioSet에서만 학습된 USS 시스템은 여러 데이터셋에서 SDR 개선(SDRi)을 달성한다: 527 AudioSet 클래스에서 5.57 dB; DCASE 2018 Task 2에서 10.57 dB; MUSDB18에서 8.12 dB; Slakh2100에서 7.28 dB; voicebank-demand에서 9.00 dB SSNR.
  • SED 모델을 이용한 앵커 세그먼트 채굴은 약하게 라벨링된 클립 내에서 대상 이벤트를 국소화 가능하게 하여 깨끗한 소스 없이도 학습을 가능하게 한다.
  • 오디오 태깅 모델에서 파생된 쿼리 임베딩(하드/소프트/잠재/학습 가능)은 ResUNet 본체에 FiLM 기반으로 통합되어 분리기를 효과적으로 조건화한다.
  • 계층적 온톨로지 그룹핑은 AudioSet의 서로 다른 레벨에서 자동 탐지 및 분리를 가능하게 하여 미리 정의된 대상 목록에 대한 의존도를 줄인다.
  • 이 프레임워크는 깨끗한 소스 데이터에 의존하지 않고도 소리 이벤트 분리, 음악 소스 분리, 음성 강화에 광범위하게 적용 가능하다는 것을 보여준다.
Figure 2: Left: Clean source data of sound class “Flute”. Right: Weakly labelled data of sound class “Air horn, truck horn” which only occurs between 2.5s - 4.0s.
Figure 2: Left: Clean source data of sound class “Flute”. Right: Weakly labelled data of sound class “Air horn, truck horn” which only occurs between 2.5s - 4.0s.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.