QUICK REVIEW

[論文レビュー] See, Hear, and Read: Deep Aligned Representations

Yusuf Aytar, Carl Vondrick|arXiv (Cornell University)|Jun 3, 2017

Multimodal Machine Learning Applications参考文献 41被引用数 68

ひとこと要約

本論文は、視覚・音響・言語を横断する共有で整列された表現を学習する深層クロスモーダルネットワークを、大規模な同期データを用いてトレーニングし、訓練時に画像・音声・テキストのペアを必要とせず、クロスモーダル検索と転送を可能にする。

ABSTRACT

We capitalize on large amounts of readily-available, synchronous data to learn a deep discriminative representations shared across three major natural modalities: vision, sound and language. By leveraging over a year of sound from video and millions of sentences paired with images, we jointly train a deep convolutional network for aligned representation learning. Our experiments suggest that this representation is useful for several tasks, such as cross-modal retrieval or transferring classifiers between modalities. Moreover, although our network is only trained with image+text and image+sound pairs, it can transfer between text and sound as well, a transfer the network never observed during training. Visualizations of our representation reveal many hidden units which automatically emerge to detect concepts, independent of the modality.

研究の動機と目的

視覚・音響・言語を横断する表現を学習するために、大規模な同期データを活用する。
画像・音声・文に対して共通の表現を生成する深層ネットワークを開発する。
クロスモーダル検索、分類転送、およびモダリティに依存しない概念の出現を実証する。
直接の訓練ペアがなくても、整列がモダリティ間で転移できることを示す（例：テキストと音声）。

提案手法

モダリティ固有の初期層と共有上層を持つ、3枝のクロスモーダル畳み込みネットワークを提案する。
2つの整列損失を用いる：共有上位重みを持つ教師画像モデルからクラス確率を予測する生徒モダリティのモデル転移損失、および共通空間で対応するペアの近接と不対応のペアの分離を強制するランキング損失。
入力をスペクトログラム（音声）、word2vec 埋め込み文（テキスト）、および画像として表現し、それぞれのCNNで処理して1000次元のソフトマックス共有表現に入力する。
同期した画像+音声および画像+テキストペアで訓練し、テキストと音声の整列を可能にするための橋渡しとして画像を使用する。クロスモーダル検索と分類器転送で評価する。
隠れユニットを可視化して、出現するモダリティ非依存の概念検出器を示す。

実験結果

リサーチクエスチョン

RQ1大規模な同期データから、視覚・音響・言語を横断する整列した識別表現を学習できるか？
RQ2学習済み表現は、画像-テキストを超える効果的なクロスモーダル検索、画像-音声および音声-テキスト転送を可能にするか？
RQ3一つのモダリティで訓練された分類器は、ターゲットモダリティのラベルなしで整列表現を用いて他のモダリティへ転移できるか？
RQ4モダリティに依存しない概念を検出する内部ユニットが出現するか？

主な発見

視覚・音声・テキストのタスクで、クロスモーダル検索がベースラインを大きく上回り、複数のモダリティペアで線形回帰やCCAより整列性を改善した。
共有表現による音声-テキスト検索は、クラスタCCAや線形回帰などのベースラインより大幅に上回る。
モダリティ間の分類器転送は、クロスモーダル設定でベースラインより最大で10％の精度向上を達成。
この表現は、訓練時に音声-テキストペアが存在しなかったにもかかわらず、視覚とテキストから音声へ、またはその逆への転送を可能にする。
共有層の隠れユニットは高レベルの概念を自動的に検出し、しばしばモダリティに依存せず対象物に応答する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。