QUICK REVIEW

[論文レビュー] Look, Listen and Learn

Relja Arandjelović, Andrew Zisserman|arXiv (Cornell University)|May 23, 2017

Speech and Audio Processing被引用数 6

ひとこと要約

本論文は、非トリムドでラベルなしの動画のみを用いて、視覚的・聴覚的ネットワークをすべてから訓練する自己教師あり音声視覚対応（AVC）学習フレームワークを提案する。動画のフレームと音声クリップが時間的に対応しているかどうかを予測することで、モデルは強力で意味的な表現を学習する。この手法は、音声分類ベンチマークで最先端の性能を達成し、両モodalの細分化された認識および局所化を可能にする。

ABSTRACT

We consider the question: what can be learnt by looking at and listening to a large number of unlabelled videos? There is a valuable, but so far untapped, source of information contained in the video itself -- the correspondence between the visual and the audio streams, and we introduce a novel "Audio-Visual Correspondence" learning task that makes use of this. Training visual and audio networks from scratch, without any additional supervision other than the raw unconstrained videos themselves, is shown to successfully solve this task, and, more interestingly, result in good visual and audio representations. These features set the new state-of-the-art on two sound classification benchmarks, and perform on par with the state-of-the-art self-supervised approaches on ImageNet classification. We also demonstrate that the network is able to localize objects in both modalities, as well as perform fine-grained recognition tasks.

研究の動機と目的

ラベルなしの動画を用いて、音声視覚対応を通じて豊かな視覚的・聴覚的表現を学習できるかどうかを調査すること。
事前学習済みの視覚的ネットワークを固定する手法とは対照的に、視覚的および聴覚的ネットワークをエンドツーエンドでからだから訓練することで、より優れた性能が得られるかどうかを検討すること。
学習された表現が、細分化された認識および局所化タスクをサポートできるかどうかを評価すること。
自己教師あり学習によるAVCが、下流タスクにおいて教師ありおよび対照的自己教師あり手法と同等またはそれ以上の性能を達成できることを示すこと。

提案手法

本手法は、動画フレームと短い音声クリップが同じ動画の同じ時刻に対応しているかどうかを判別する二値分類タスクとして定式化する。
シアンズ型のネットワークアーキテクチャを採用し、視覚的および聴覚的タワーのエンコーダー（視覚にはResNet-50、聴覚にはCNN）を別々に設け、その後に統合層と分類器を配置する。
ポジティブペアは、同じ動画の同じタイムスタンプから抽出する。ネガティブペアは、異なる動画のフレームと音声を混合して作成する。
分類タスクにおける対応予測にクロスエントロピー損失を用い、ラベルや追加の監視なしにエンドツーエンドでモデルを訓練する。
下流タスクの評価には、視覚的および聴覚的タワーの最終層からの特徴埋め込みを用いる。
活性化可視化を用いて、音声源を動画フレーム内で局所化し、楽器や手などの関連領域に注目していることが明らかになった。

実験結果

リサーチクエスチョン

RQ1ラベルなしの動画を用いた音声視覚対応による自己教師あり学習は、人為的ラベルなしに高品質な視覚的・聴覚的表現を学習できるか？
RQ2事前学習済みの視覚的ネットワークを固定する手法とは対照的に、視覚的および聴覚的ネットワークを同時にからだから訓練することで、より優れた性能が得られるか？
RQ3学習された表現が、類似した楽器を区別するような細分化された認識タスクをサポートできるか？
RQ4活性化マップを用いて、モデルが視覚フレーム内で音声イベントの発生源をどの程度正確に局所化できるか？
RQ5学習された特徴量が、下流ベンチマークにおいて最先端の自己教師ありおよび教師あり手法と比較して、どの程度の性能を示すか？

主な発見

聴覚的ネットワークは、視覚的監視を用いた最近の手法よりも優れた性能を達成し、2つの音声分類ベンチマークで最先端の性能を記録した。
視覚的ネットワークは、ImageNet分類において最先端の自己教師あり手法と同等の性能を示した。
モデルは、ベースギターとアコースティックギター、サックスとクラリネットの間のような、細分化された視覚的・聴覚的差異を学習した。
t-SNE可視化では、学習された埋め込みが行動クラスごとに意味的に意味のあるクラスタリングを示しており、意味的な表現学習が行われていることが示された。
活性化可視化により、モデルが両モダリティで音声源を局所化していることが明らかになった。たとえば、タイピングの際には手やキーボードが強調され、音楽演奏の際には楽器が強調された。
k-meansを用いたL3-Net埋め込みのクラスタリングにより、視覚のNMIスコアは0.409、聴覚のNMIスコアは0.330が得られ、ランダムベースライン（0.204および0.219）を著しく上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。