QUICK REVIEW

[논문 리뷰] Is Someone Speaking? Exploring Long-term Temporal Features for Audio-visual Active Speaker Detection

Ruijie Tao, Zexu Pan|arXiv (Cornell University)|2021. 07. 14.

Speech and Audio Processing참고 문헌 47인용 수 24

한 줄 요약

이 논문은 자기주의 주의(self-attention) 및 청각-시각 간 상호주의 cross-attention 메커니즘을 사용하여 음성 및 영상 스트림에서 장기적인 시간적 특징을 활용하는 새로운 청각-시각 활동적 화자 검출 프레임워크인 TalkNet을 제안한다. 전체 발화 동안 장기적인 시간적 맥락과 다중 모odal 동기화를 모델링함으로써 TalkNet은 최신 기술 수준(SOTA)의 성능을 달성하여 기존 방법에 비해 AVA-ActiveSpeaker에서 mAP를 3.5% 향상시키고, Columbia ASD에서 2.2% 향상시켰다.

ABSTRACT

Active speaker detection (ASD) seeks to detect who is speaking in a visual scene of one or more speakers. The successful ASD depends on accurate interpretation of short-term and long-term audio and visual information, as well as audio-visual interaction. Unlike the prior work where systems make decision instantaneously using short-term features, we propose a novel framework, named TalkNet, that makes decision by taking both short-term and long-term features into consideration. TalkNet consists of audio and visual temporal encoders for feature representation, audio-visual cross-attention mechanism for inter-modality interaction, and a self-attention mechanism to capture long-term speaking evidence. The experiments demonstrate that TalkNet achieves 3.5% and 2.2% improvement over the state-of-the-art systems on the AVA-ActiveSpeaker dataset and Columbia ASD dataset, respectively. Code has been made available at: https://github.com/TaoRuijie/TalkNet_ASD.

연구 동기 및 목표

기존 활동적 화자 검출(ASD) 시스템이 단기적인 청각-시각 특징에만 의존하여 의미 있는 화자 맥락을 포착하지 못하는 한계를 해결하기 위해.
동적이고 실제적인 환경에서 더 견고한 ASD를 위해 장기적인 시간적 모델링이 음성 및 영상 스트림에서 얼마나 효과적인지 조사하기 위해.
청각-시각 간 상호주의 및 장기적인 화자 행동 증거를 포착하기 위해 청각-시각 간 상호주의 및 자기주의 주의 메커니즘의 효과를 탐색하기 위해.
외부 노이즈 데이터셋에 의존하지 않고도 모델의 견고성을 향상시키는 효율적인 음성 증강 기법을 개발하기 위해.

제안 방법

TalkNet은 순차적 프레임에서 장기적인 표현을 추출하기 위해 음성 및 영상 시간적 인코더를 별도로 활용하여 단기 세그먼트를 초월한 시간 역학을 포착한다.
음성-영상 간 상호주의 메커니즘을 사용하여 시간에 따라 말과 입술 움직임 간의 다중 모달 관계와 동기화를 모델링한다.
융합된 특징에 자기주의 주의 메커니즘을 적용하여 전체 발화 동안 장기적인 화자 행동 패tern을 포착한다.
구분 능력 있는 특징 학습을 향상시키기 위해 트리플릿 손실을 사용하는 대비 학습 목표를 사용하여 모델을 훈련시킨다.
기존 데이터셋 외부에 의존하지 않고 소음 환경에 대한 견고성을 향상시키기 위해 혁신적인 음성 증강 기법인 음성 부정 샘플링 기반 기법을 도입한다.
모델은 엔드 투 엔드로 훈련 가능하며 프레임 수준의 활동적 화자 분류 최적화를 위해 설계되어 있다.

실험 결과

연구 질문

RQ1장기적인 음성 및 영상 시간적 특징은 단기 세그먼트 기반 접근 방식을 초월하여 활동적 화자 검출 성능을 크게 향상시킬 수 있는가?
RQ2장기적인 발화 동안 청각-시각 간 상호주의가 동기화 및 다중 모달 증거를 얼마나 효과적으로 모델링하는가?
RQ3장기적인 특징에 자기주의 주의를 적용할 경우, 여러 프레임에 걸친 화자 활동 탐지 능력이 얼마나 향상되는가?
RQ4제안된 음성 부정 샘플링 기반 증강 기법은 소음 조건에서 기존의 데이터 증강 기법보다 뛰어나게 성능을 높일 수 있는가?

주요 결과

AVA-ActiveSpeaker 데이터셋에서 TalkNet은 최신 기술 수준의 성능을 3.5% 절대적으로 향상시켜 mAP 92.3%를 달성했다.
Columbia ASD 데이터셋에서 TalkNet은 성능을 2.2% 향상시켜 이전 방법들을 능가했다.
제거 실험 결과, 자기주의 주의 또는 상호주의 주의 모듈을 제거할 경우 각각 mAP가 1.4% 및 0.7% 감소하여 이들의 효과성을 입증했다.
제안된 음성 부정 샘플링 기반 증강 기법은 기존의 노이즈 기반 증강 기법보다 뛰어나 92.3% mAP를 달성했고, 외부 데이터 없이도 성능을 확보했다.
TalkNet은 모든 얼굴 크기 카테고리에서 뛰어난 성능을 유지하며, 한 프레임에 여러 얼굴이 존재할 경우에도 가장 견고한 모델로 남아 있었다.
입력 세그먼트 길이를 11에서 25 프레임으로 연장할 경우 TalkNet의 mAP는 4.8% 향상되었고, 기존 방법들은 2.1% 감소하는 것으로 나타나, 장기 세그먼트에 대한 주의 메커니즘의 필요성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.