QUICK REVIEW

[論文レビュー] Audiovisual SlowFast Networks for Video Recognition

Fanyi Xiao, Yong Jae Lee|arXiv (Cornell University)|Jan 23, 2020

Music and Audio Processing参考文献 86被引用数 158

ひとこと要約

オーディオとSlowFast視覚経路を複数の層で融合するAudiovisual SlowFast (AVSlowFast) ネットワークを紹介し、DropPathwayとオーディオ視覚同期を組み合わせてビデオアクション認識と自己教師付きオーディオ視覚特徴を改善する。

ABSTRACT

We present Audiovisual SlowFast Networks, an architecture for integrated audiovisual perception. AVSlowFast has Slow and Fast visual pathways that are deeply integrated with a Faster Audio pathway to model vision and sound in a unified representation. We fuse audio and visual features at multiple layers, enabling audio to contribute to the formation of hierarchical audiovisual concepts. To overcome training difficulties that arise from different learning dynamics for audio and visual modalities, we introduce DropPathway, which randomly drops the Audio pathway during training as an effective regularization technique. Inspired by prior studies in neuroscience, we perform hierarchical audiovisual synchronization to learn joint audiovisual features. We report state-of-the-art results on six video action classification and detection datasets, perform detailed ablation studies, and show the generalization of AVSlowFast to learn self-supervised audiovisual features. Code will be made available at: https://github.com/facebookresearch/SlowFast.

研究の動機と目的

音声と視覚ストリームの遅融合を超えた統合的なオーディオ視覚知覚を動機づける。
複数の階層レベルで音声をSlowFast視覚経路と融合するアーキテクチャを開発する。
音声と視覚のモダリティ間の非同期学習ダイナミクスに対処するためのトレーニング戦略。
複数のアクション分類および検出データセットで最先端性能を実証する。
オーディオビジュアル表現の自己教師付き学習への一般化を示す。

提案手法

SlowFastを、log-mel-スペクトログラム入力を処理する専用のAudio経路を拡張する。
中間段階でAudioをSlowおよびFast視覚経路と接続する階層型オーディオ視覚融合を導入する。
トレーニング時にAudio経路をランダムにドロップして共同訓練を正規化するDropPathwayを提案する。
交差モーダル特徴を学習するための補助タスクとしてオーディオ視覚同期 (AVS) を実装する。
複数の融合方式（A→F→S、A→FS、Audiovisual Nonlocal）を検討し、整合性と性能への影響を評価する。
融合段階、横方向接続、および同期化のアブレーションを提供して設計上のトレードオフを理解する。

実験結果

リサーチクエスチョン

RQ1音声情報を階層的な視覚表現に効果的に統合してアクション認識と検出を改善できるか？
RQ2どの融合戦略と学習技術が音声と視覚ストリーム間の学習ダイナミクスを最も適切にバランスさせるか？
RQ3階層的なオーディオビジュアル同期はモダリティ一般の表現（自己教師付き特徴を含む）を学習するのに役立つか？
RQ4SlowFastにAudio経路を追加する場合の計算コストと精度のトレードオフは？
RQ5視覚のみモデルと比較して、AVSlowFastは多様なデータセット（エゴセントリック、環境光、標準ベンチマーク）でどのように性能を発揮するか？

主な発見

AVSlowFastはデータセット全体でSlowFastを一貫して改善し、例としてEPIC-Kitchensでは、音声が語彙動詞名詞アクションのTop-1精度を20%計算量で+2.9/+4.3/+2.3ポイント向上させる。
Kineticsでは、同じバックボーンでSlowFastより高いTop-1精度を達成し、控えめな計算量（約10–20%）で音声ストリームの有効性を示している。
AVAアクション検出では、相対的に小さな追加計算量（全体で約2%）で改善をもたらす。
階層的融合（中間視覚段階に統合されたAudio）は遅融合を上回り、res3、res4、pool5接続を取り入れた多段階融合でピークに達する。
DropPathwayは安定した共同訓練に必須で、音声視覚学習ペースを調整することにより一般化を大幅に改善する。
Audio-visual synchronization (AVS) はクロスモーダル表現をさらに強化し、自己教師付きオーディオビジュアル特徴学習に有利になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。