[논문 리뷰] Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation
본 논문은 얼굴 시각 단서를 사용하여 소음이 섞인 다중 화자 혼합에서 특정 화자를 분리하고 강화하는 화자 독립적인 음성-비주얼 깊은 모델을 제시하며, 대규모 AVSpeech 데이터셋으로 학습하고 오디오 전용 방법보다 우수함을 입증한다.
We present a joint audio-visual model for isolating a single speech signal from a mixture of sounds such as other speakers and background noise. Solving this task using only audio as input is extremely challenging and does not provide an association of the separated speech signals with speakers in the video. In this paper, we present a deep network-based model that incorporates both visual and auditory signals to solve this task. The visual features are used to "focus" the audio on desired speakers in a scene and to improve the speech separation quality. To train our joint audio-visual model, we introduce AVSpeech, a new dataset comprised of thousands of hours of video segments from the Web. We demonstrate the applicability of our method to classic speech separation tasks, as well as real-world scenarios involving heated interviews, noisy bars, and screaming children, only requiring the user to specify the face of the person in the video whose speech they want to isolate. Our method shows clear advantage over state-of-the-art audio-only speech separation in cases of mixed speech. In addition, our model, which is speaker-independent (trained once, applicable to any speaker), produces better results than recent audio-visual speech separation methods that are speaker-dependent (require training a separate model for each speaker of interest).
연구 동기 및 목표
- 시각적 단서를 활용하여 시끄러운 다중 화자 비디오에서 한 화자의 목소리 분리를 동기부여하고 가능하게 한다.
- 화자 독립형 AV 모델을 학습시키기 위한 대규모 AV 스피치 데이터셋(AVSpeech)을 도입한다.
- 가시적으로 보이는 각 화자에 대해 별도의 음성 스트림을 생성하기 위해 음향 및 시각 특징을 융합하는 다중 스트림 신경망을 개발하고 학습한다.
- 실세계 및 합성 시나리오에서 오디오 전용 음성 분리 및 기존 AV 방법 대비 개선을 입증한다.
제안 방법
- 감지된 각 화자에 대해 오디오 스펙트로그램과 얼굴 임베딩을 입력으로 받는 다중 스트림 신경망.
- 시각 스트림은 프레임별 얼굴 임베딩을 확장된 합성(convolutions)으로 처리하고; 오디오 스트림은 STFT 피처를 확장된 합성으로 처리한다.
- 오디오 및 시각 특징의 연결(concatenation)을 통한 융합 후 BLSTM과 3개의 완전 연결 계층을 거쳐 각 화자에 대한 복소 스펙트로그램 마스크를 출력한다.
- 마스크는 복소 비율 마스크(cRM) 또는 비율 마스크(RM)일 수 있으며; 일반적으로 cRM이 더 나은 음성 품질을 산출한다.
- 학습은 거듭제곱 법칙(power-law)으로 압축된 스펙트로그램에 대한 L2 손실을 사용하며; ISTFT로 파형을 회복한다.
- 가시적으로 보이는 화자 수의 변화에 대응하여 1, 2, 또는 3 입력 스트림에 대해 별도의 모델을 사용하되 가중치는 스트림 간에 공유된다.
실험 결과
연구 질문
- RQ1배경 소음이 있는 단일 채널 혼합에서 화자 독립적 음성-시각 모델이 오디오 전용 음성 분리보다 더 우수하게 작동할 수 있는가?
- RQ2가시적 얼굴 정보를 도입하는 것이 분리된 음성과 비디오의 화자 간 연관성을 향상시키는가?
- RQ3입력 시각 스트림(화자)의 수가 분리 품질에 어떤 영향을 미치는가?
- RQ4합성 혼합을 넘어서 겹치는 음성과 소음이 있는 실세계 장면에 대해 모델이 일반화될 수 있는가?
주요 결과
- AV 모델은 합성 혼합에서 여러 작업에서 오디오 전용 기준선보다 우수하다.
- 두 개의 가시 얼굴을 사용하는 것은 두 스트림에서 2S 클린 태스크에 대해 SDR이 10.3 dB 개선되며, 더 많은 스트림에서 미미한 이득을 보인다.
- 세 화자(3S) 클린 혼합은 세 개의 시각 스트림으로 약 10 dB의 SDR 개선을 달성한다.
- 두 입력 스트림을 가진 두 화자 모델은 단일 스트림 AV 모델에 비해 약 0.4–0.5 dB의 추가 SDR 이득을 제공한다.
- 실제 영상(열띤 토론, 바, 비명을 지르는 아이들)에서 대상 화자를 분리하는 질적 개선이 보이나 실시간은 아니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.