QUICK REVIEW

[논문 리뷰] Seeing Through Noise: Speaker Separation and Enhancement using Visually-derived Speech.

Aviv Gabbay, Ariel Ephrat|arXiv (Cornell University)|2017. 08. 22.

Speech and Audio Processing참고 문헌 21인용 수 13

한 줄 요약

이 논문은 비디오에서 얼굴 운동 신호를 활용하여 청결한 음성 예측을 생성하고, 이를 노이즈가 있는 음성에 대한 필터로 사용함으로써 음성 분리 및 음성 강화를 위한 새로운 음성-시각적 방법을 제안한다. 이 방법은 혼합 음성 데이터에 대한 학습을 피하기 위해 비디오에서 음성으로의 모델을 활용해 목표 음성자기의 음성을 추론함으로써, GRID 및 TCD-TIMIT 데이터셋에서 원시 예측 및 음성 전용 기준 모델 대비 상당한 SDR 및 PESQ 향상을 달성한다.

ABSTRACT

Isolating the voice of a specific person while filtering out other voices or background noises is challenging when video is shot in noisy environments. We propose audio-visual methods to isolate the voice of a single speaker and eliminate unrelated sounds. First, face motions captured in the video are used to estimate the speaker's voice, by passing the silent video frames through a video-to-speech neural network-based model. Then the speech predictions are applied as a filter on the noisy input audio. This approach avoids using mixtures of sounds in the learning process, as the number of such possible mixtures is huge, and would inevitably bias the trained model. We evaluate our method on two audio-visual datasets, GRID and TCD-TIMIT, and show that our method attains significant SDR and PESQ improvements over the raw video-to-speech predictions, and a well-known audio-only method.

연구 동기 및 목표

노이즈가 많고 다수의 말하는 사람이 있는 환경에서 음성 전용 방법이 어려움을 겪는 단일 말하는 사람의 목소리를 분리하는 문제를 해결하기 위해.
다양하고 방대한 음성과 노이즈의 혼합물에 대한 학습으로 인해 모델이 편향되고 일반화 능력이 떨어지는 문제를 극복하기 위해.
특히 비디오에서의 얼굴 운동과 같은 시각적 신호를 활용하여 목표 말하는 사람의 음성 분리를 위한 정확한 음성 예측을 생성하기 위해.
원시 음성 입력에만 의존하는 것 대신, 이러한 시각 기반 예측을 필터로 사용하여 음성 강화 및 분리 성능을 향상시키기 위해.

제안 방법

목표 말하는 사람의 얼굴 운동에 기반하여, 침묵한 비디오 프레임에 대해 비디오에서 음성으로의 신경망을 적용하여 해당 말하는 사람의 음성 신호를 예측한다.
예측된 음성 신호를 노이즈가 있는 음성 혼합물에서 해당 말하는 사람의 목소리를 분리하기 위한 필터로 사용한다.
혼합 음성 데이터에 대한 엔드 투 엔드 학습을 피하기 위해 시각 전용 음성 생성에 의존함으로써, 음성 혼합 데이터의 복잡성과 편향을 줄인다.
이 방법은 비디오 프레임을 입력으로 사용하여 음성-시각 데이터셋인 GRID와 TCD-TIMIT에서 학습 및 평가된다.
필터링된 음성 출력은 원시 비디오에서 음성으로의 예측 및 강력한 음성 전용 기준 모델과 비교되어 성능을 측정한다.

실험 결과

연구 질문

RQ1얼굴 운동에서 유도된 시각적 신호는 노이즈가 많은 환경에서 말하는 사람의 분리를 위한 청결한 음성 예측을 효과적으로 생성하는 데 사용될 수 있는가?
RQ2비디오에서 유도된 음성 예측을 사용해 노이즈가 있는 음성을 필터링하면 원시 비디오에서 음성으로의 출력 대비 음성 분리 및 강화 성능이 향상되는가?
RQ3SDR 및 PESQ 지표에서 잘 알려진 음성 전용 말하는 사람 분리 방법과 비교했을 때, 제안된 방법은 어떤가?
RQ4혼합 음성 혼합물에 대한 학습을 피할 경우, 말하는 사람 분리 작업에서 더 나은 일반화 및 성능을 달성할 수 있는가?

주요 결과

제안된 방법은 원시 비디오에서 음성으로의 예측 대비 신호 대 왜곡 비율(SDR)과 청각적 음성 품질 평가(PESQ)에서 상당한 향상을 달성한다.
이 방법은 GRID 및 TCD-TIMIT 데이터셋 양쪽에서 잘 알려진 음성 전용 말하는 사람 분리 방법을 능가한다.
혼합 음성 데이터에 대한 학습을 피했기 때문에, 가능한 음성 혼합물의 조합 폭발로 인한 편향을 피할 수 있다.
시각 기반 예측을 필터로 사용함으로써, 매우 노이즈가 많은 환경에서도 목표 말하는 사람의 음성 분리를 효과적으로 수행할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.