QUICK REVIEW

[論文レビュー] Is Someone Speaking? Exploring Long-term Temporal Features for Audio-visual Active Speaker Detection

Ruijie Tao, Zexu Pan|arXiv (Cornell University)|Jul 14, 2021

Speech and Audio Processing参考文献 47被引用数 24

ひとこと要約

本稿では、自己注意機構および音声・視覚間クロス注意機構を用いて、音声および映像ストリームからの長期的時間的特徴を活用する、新しい音声・視覚的アクティブスピーカー検出フレームワークであるTalkNetを提案する。全発話にわたる時間的文脈のモデル化とモodal間同期を図ることで、TalkNetは最先端の性能を達成し、AVA-ActiveSpeakerではmAPを3.5%、Columbia ASDでは2.2%向上させた。

ABSTRACT

Active speaker detection (ASD) seeks to detect who is speaking in a visual scene of one or more speakers. The successful ASD depends on accurate interpretation of short-term and long-term audio and visual information, as well as audio-visual interaction. Unlike the prior work where systems make decision instantaneously using short-term features, we propose a novel framework, named TalkNet, that makes decision by taking both short-term and long-term features into consideration. TalkNet consists of audio and visual temporal encoders for feature representation, audio-visual cross-attention mechanism for inter-modality interaction, and a self-attention mechanism to capture long-term speaking evidence. The experiments demonstrate that TalkNet achieves 3.5% and 2.2% improvement over the state-of-the-art systems on the AVA-ActiveSpeaker dataset and Columbia ASD dataset, respectively. Code has been made available at: https://github.com/TaoRuijie/TalkNet_ASD.

研究の動機と目的

既存のアクティブスピーカー検出（ASD）システムが短時間の音声・視覚的特徴に依存するという制限に対処すること。これは、意味のある発話文脈を捉えられないことが多く、
動的で現実世界の状況においてより強固なASDを実現するため、音声および映像ストリームにおける長期的時間的モデリングの有効性を調査すること。
音声・視覚間クロス注意および自己注意メカニズムを用いて、モダリティ間同期および長期的発話証拠を捉えること。
外部ノイズデータセットに依存せずに、モデルのロバスト性を向上させる効率的な音声拡張技術の開発すること。

提案手法

TalkNetは、時間的特徴を短いセグメントを超える動的な時間的ダイナミクスを捉えるために、音声および映像ストリームの両方の時間的エンコーダーを別々に用いる。
音声・視覚間クロス注意機構を用いて、発話と口の動きの時間的同期を含むモダリティ間関係をモデル化する。
融合特徴に自己注意機構を適用し、全発話にわたる長期的発話パターンを捉える。
判別的特徴学習を強化するため、トリプルット損失を用いた対照学習の目的関数でモデルを訓練する。
外部データに依存せずに、騒音環境へのロバスト性を向上させる、革新的なネガティブサンプリングに基づく音声拡張技術を導入する。
エンドツーエンドで学習可能であり、フレームレベルのアクティブスピーカー分類を最適化する。

実験結果

リサーチクエスチョン

RQ1長期的音声および映像の時間的特徴は、短時間セグメントベースの手法を上回るアクティブスピーカー検出を著しく改善できるか？
RQ2音声・視覚間クロス注意は、拡張された発話にわたる同期およびモダリティ間証拠をどの程度効果的にモデル化できるか？
RQ3長期的特徴に自己注意を適用することで、複数フレームにわたる発話活動検出がどの程度向上するか？
RQ4提案されたネガティブサンプリングに基づく音声拡張技術は、従来のノイズベースの拡張法を上回る性能を達成できるか？

主な発見

AVA-ActiveSpeakerデータセットでは、最先端手法を3.5%の絶対的向上率で上回り、mAPが92.3%に達した。
Columbia ASDデータセットでも、mAPが2.2%向上し、従来手法を上回った。
アブレーションスタディの結果、自己注意またはクロス注意モジュールを削除すると、それぞれmAPが1.4%および0.7%低下し、その有効性が裏付けられた。
提案されたネガティブサンプリング音声拡張技術は、従来のノイズベース拡張法を上回り、外部データなしで92.3%のmAPを達成した。
TalkNetは、全顔サイズカテゴリで優れた性能を維持し、複数の顔がフレーム内に存在する状況でも最もロバストなモデルであった。
入力セグメントを11フレームから25フレームに延長すると、TalkNetのmAPは4.8%向上したが、従来手法は2.1%低下した。これは、長時間セグメントにおける注意メカニズムの必要性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。