[論文レビュー] Objects that Sound
本論文では、ラベルなし動画を用いて音声と視覚の対応関係(AVC)を用いて自己教師ありで学習する音声視覚表現学習フレームワークを提案する。このフレームワークにより、クロスモーダル検索と音源局所化の両方を同時に実現する。音声と視覚の整合性のみを教師信号として用いることで、音声から画像への検索と画像から音声への検索を両立する共有埋め込みを学習し、音声信号のみを用いて画像内の音を発する対象を正確に局所化する。
In this paper our objectives are, first, networks that can embed audio and visual inputs into a common space that is suitable for cross-modal retrieval; and second, a network that can localize the object that sounds in an image, given the audio signal. We achieve both these objectives by training from unlabelled video using only audio-visual correspondence (AVC) as the objective function. This is a form of cross-modal self-supervision from video. To this end, we design new network architectures that can be trained for cross-modal retrieval and localizing the sound source in an image, by using the AVC task. We make the following contributions: (i) show that audio and visual embeddings can be learnt that enable both within-mode (e.g. audio-to-audio) and between-mode retrieval; (ii) explore various architectures for the AVC task, including those for the visual stream that ingest a single image, or multiple images, or a single image and multi-frame optical flow; (iii) show that the semantic object that sounds within an image can be localized (using only the sound, no motion or flow information); and (iv) give a cautionary tale on how to avoid undesirable shortcuts in the data preparation.
研究の動機と目的
- 手動アノテーションを一切用いずに、クロスモーダル検索を支援する統合音声視覚埋め込みを学習すること。
- 動きやオプティカルフローに依存せずに、音声信号のみを用いて画像内の音を発する対象を局所化すること。
- ラベルなし動画からの音声視覚対応関係を唯一の自己教師信号として用いて、統合ネットワークアーキテクチャを学習すること。
- 視覚エンコーダーのアーキテクチャのバリエーション(単一画像、複数画像、画像+フローの組み合わせ)を調査すること。
- 自己教師あり学習における誤った相関関係を引き起こす可能性のあるデータ準備の抜け道を特定し、それらを是正すること。
提案手法
- ラベルなし動画における音声と視覚のクリップ間の時間的整合性を教師信号として用い、音声視覚対応関係(AVC)を唯一の目的関数として深層ニューラルネットワークを学習する。
- 音声と視覚の入力を共有投影ヘッドを介して同じ埋め込み空間にマップする二重ストリームネットワークを設計する。
- 対照的学習を用いて埋め込み空間を最適化し、一致する音声視覚ペアは近づけ、一致しないペアは遠ざける。
- 視覚ストリームのバリエーションを検討:単一画像、複数画像、および複数フレームのオプティカルフローを含む単一画像。これにより、表現品質に与える影響を評価する。
- 視覚ストリームに局所化ヘッドを適用し、音声埋め込みのみを入力として用いて音を発する対象のバウンディングボックスを予測する。
- データ拡張と慎重なサンプリング戦略を適用し、非音声関連の視覚的ヒントに依存する抜け道を回避する。
実験結果
リサーチクエスチョン
- RQ1音声視覚対応関係のみを用いて、音声と視覚の表現を統合的に学習し、モード内およびクロスモーダル検索を両立させることができるか?
- RQ2単一画像、複数画像、画像+フローなどの視覚ストリームアーキテクチャのうち、音声視覚表現学習において最も優れたパフォーマンスを示すのはどれか?
- RQ3動きやフロー情報に依存せずに、音声信号のみを用いて画像内の音を発する対象を局所化できるか?
- RQ4どのようなデータ準備の落とし穴が誤った相関関係を引き起こす可能性があり、それらを回避するにはどうすればよいか?
- RQ5自己教師あり学習によるAVCは、教師ありまたは弱教師ありのベースラインと比較して、下流の検索および局所化タスクでどのように性能を発揮するか?
主な発見
- 音声から画像への検索と画像から音声への検索の両方で優れた性能を達成し、共有埋め込み空間における効果的なクロスモーダル整合性を示している。
- 複数フレームのオプティカルフローを組み込んだ視覚エンコーダーは、静的画像のみを用いるものよりも優れている。これは、動き情報が表現品質を向上させることを示している。
- 音声信号のみを用いても、動きの手がかりに依存せずに、画像内の音を発する対象を正確に局所化できており、高い局所化精度を達成している。
- アブレーションスタディにより、誤ったフレームサンプリングなどのデータ準備の選択が、意味のないヒントに依存する抜け道を生じさせ、音声視覚整合性の学習を妨げることが確認された。
- 提案手法は多様な動画分布にわたって良好に一般化し、自己教師あり事前学習におけるドメインシフトに対しても頑健であることが示された。
- AVCを目的関数として用いた対照的学習により、人為的アノテーションを一切用いずに、下流の検索および局所化ベンチマークで最先端の性能が達成された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。