Skip to main content
QUICK REVIEW

[논문 리뷰] Is Someone Speaking? Exploring Long-term Temporal Features for Audio-visual Active Speaker Detection

Ruijie Tao, Zexu Pan|arXiv (Cornell University)|2021. 07. 14.
Speech and Audio Processing참고 문헌 47인용 수 24
한 줄 요약

이 논문은 자기주의 주의(self-attention) 및 청각-시각 간 상호주의 cross-attention 메커니즘을 사용하여 음성 및 영상 스트림에서 장기적인 시간적 특징을 활용하는 새로운 청각-시각 활동적 화자 검출 프레임워크인 TalkNet을 제안한다. 전체 발화 동안 장기적인 시간적 맥락과 다중 모odal 동기화를 모델링함으로써 TalkNet은 최신 기술 수준(SOTA)의 성능을 달성하여 기존 방법에 비해 AVA-ActiveSpeaker에서 mAP를 3.5% 향상시키고, Columbia ASD에서 2.2% 향상시켰다.

ABSTRACT

Active speaker detection (ASD) seeks to detect who is speaking in a visual scene of one or more speakers. The successful ASD depends on accurate interpretation of short-term and long-term audio and visual information, as well as audio-visual interaction. Unlike the prior work where systems make decision instantaneously using short-term features, we propose a novel framework, named TalkNet, that makes decision by taking both short-term and long-term features into consideration. TalkNet consists of audio and visual temporal encoders for feature representation, audio-visual cross-attention mechanism for inter-modality interaction, and a self-attention mechanism to capture long-term speaking evidence. The experiments demonstrate that TalkNet achieves 3.5% and 2.2% improvement over the state-of-the-art systems on the AVA-ActiveSpeaker dataset and Columbia ASD dataset, respectively. Code has been made available at: https://github.com/TaoRuijie/TalkNet_ASD.

연구 동기 및 목표

  • 기존 활동적 화자 검출(ASD) 시스템이 단기적인 청각-시각 특징에만 의존하여 의미 있는 화자 맥락을 포착하지 못하는 한계를 해결하기 위해.
  • 동적이고 실제적인 환경에서 더 견고한 ASD를 위해 장기적인 시간적 모델링이 음성 및 영상 스트림에서 얼마나 효과적인지 조사하기 위해.
  • 청각-시각 간 상호주의 및 장기적인 화자 행동 증거를 포착하기 위해 청각-시각 간 상호주의 및 자기주의 주의 메커니즘의 효과를 탐색하기 위해.
  • 외부 노이즈 데이터셋에 의존하지 않고도 모델의 견고성을 향상시키는 효율적인 음성 증강 기법을 개발하기 위해.

제안 방법

  • TalkNet은 순차적 프레임에서 장기적인 표현을 추출하기 위해 음성 및 영상 시간적 인코더를 별도로 활용하여 단기 세그먼트를 초월한 시간 역학을 포착한다.
  • 음성-영상 간 상호주의 메커니즘을 사용하여 시간에 따라 말과 입술 움직임 간의 다중 모달 관계와 동기화를 모델링한다.
  • 융합된 특징에 자기주의 주의 메커니즘을 적용하여 전체 발화 동안 장기적인 화자 행동 패tern을 포착한다.
  • 구분 능력 있는 특징 학습을 향상시키기 위해 트리플릿 손실을 사용하는 대비 학습 목표를 사용하여 모델을 훈련시킨다.
  • 기존 데이터셋 외부에 의존하지 않고 소음 환경에 대한 견고성을 향상시키기 위해 혁신적인 음성 증강 기법인 음성 부정 샘플링 기반 기법을 도입한다.
  • 모델은 엔드 투 엔드로 훈련 가능하며 프레임 수준의 활동적 화자 분류 최적화를 위해 설계되어 있다.

실험 결과

연구 질문

  • RQ1장기적인 음성 및 영상 시간적 특징은 단기 세그먼트 기반 접근 방식을 초월하여 활동적 화자 검출 성능을 크게 향상시킬 수 있는가?
  • RQ2장기적인 발화 동안 청각-시각 간 상호주의가 동기화 및 다중 모달 증거를 얼마나 효과적으로 모델링하는가?
  • RQ3장기적인 특징에 자기주의 주의를 적용할 경우, 여러 프레임에 걸친 화자 활동 탐지 능력이 얼마나 향상되는가?
  • RQ4제안된 음성 부정 샘플링 기반 증강 기법은 소음 조건에서 기존의 데이터 증강 기법보다 뛰어나게 성능을 높일 수 있는가?

주요 결과

  • AVA-ActiveSpeaker 데이터셋에서 TalkNet은 최신 기술 수준의 성능을 3.5% 절대적으로 향상시켜 mAP 92.3%를 달성했다.
  • Columbia ASD 데이터셋에서 TalkNet은 성능을 2.2% 향상시켜 이전 방법들을 능가했다.
  • 제거 실험 결과, 자기주의 주의 또는 상호주의 주의 모듈을 제거할 경우 각각 mAP가 1.4% 및 0.7% 감소하여 이들의 효과성을 입증했다.
  • 제안된 음성 부정 샘플링 기반 증강 기법은 기존의 노이즈 기반 증강 기법보다 뛰어나 92.3% mAP를 달성했고, 외부 데이터 없이도 성능을 확보했다.
  • TalkNet은 모든 얼굴 크기 카테고리에서 뛰어난 성능을 유지하며, 한 프레임에 여러 얼굴이 존재할 경우에도 가장 견고한 모델로 남아 있었다.
  • 입력 세그먼트 길이를 11에서 25 프레임으로 연장할 경우 TalkNet의 mAP는 4.8% 향상되었고, 기존 방법들은 2.1% 감소하는 것으로 나타나, 장기 세그먼트에 대한 주의 메커니즘의 필요성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.