QUICK REVIEW

[論文レビュー] Word2VisualVec: Cross-Media Retrieval by Visual Feature Prediction.

Jianfeng Dong, Xirong Li|arXiv (Cornell University)|Apr 23, 2016

Multimodal Machine Learning Applications参考文献 33被引用数 24

ひとこと要約

本稿では、テキストから深層視覚特徴を予測する深層ニューラルネットワークであるWord2VisualVecを提案する。この手法により、視覚空間のみを用いたクロスメディア検索が可能となる。大規模なクリックログと画像キャプションを用いて訓練することで、Flickr8KおよびClickture-Liteで最先端の性能を達成し、予測された視覚特徴はテキストのみの検索に対しても有効である。

ABSTRACT

This paper attacks the challenging problem of cross-media retrieval. That is, given an image find the text best describing its content, or the other way around. Different from existing works, which either rely on a joint space, or a text space, we propose to perform cross-media retrieval in a visual space only. We contribute extit{Word2VisualVec}, a deep neural network architecture that learns to predict a deep visual encoding of textual input. We discuss its architecture for prediction of CaffeNet and GoogleNet features, as well as its loss functions for learning from text/image pairs in large-scale click-through logs and image sentences. Experiments on the Clickture-Lite and Flickr8K corpora demonstrate the robustness for both Text-to-Image and Image-to-Text retrieval, outperforming the state-of-the-art on both accounts. Interestingly, an embedding in predicted visual feature space is also highly effective when searching in text only.

研究の動機と目的

共同埋め込み空間やテキスト専用埋め込み空間に依存せずにクロスメディア検索の課題を解決すること。
テキスト入力を直接視覚的特徴を予測する能力を学習することで、効果的な検索を可能にすること。
視覚空間表現のみを用いて、テキストから画像検索および画像からテキスト検索の両タスクにおいて堅牢性を示すこと。
予測された視覚特徴埋め込みが、完全にテキストベースの検索シナリオにおいても有用であることを検証すること。

提案手法

Word2VisualVecは、テキスト入力をCaffeNet や GoogleNet などの深層視覚特徴にマッピングする深層ニューラルネットワークである。
モデルは、クリックログと画像キャプションから得られる大規模なテキスト-画像ペairを用いて、最適化された損失関数で訓練される。
エンドツーエンド学習を活用し、対応するテキスト記述と一致する実際の画像特徴と一致する予測視覚特徴を生成する。
アーキテクチャは、さまざまなCNNバックボーンに一般化可能であり、視覚特徴抽出の柔軟性を提供する。
予測された特徴と真値特徴の間の整合性を向上させるために、対照的損失と再構成損失の両方を訓練プロセスに組み込む。
共同埋め込み空間やテキスト固有の変換を必要とせず、完全に視覚空間内でのみ動作する。

実験結果

リサーチクエスチョン

RQ1共同埋め込み空間やテキスト専用埋め込み空間に依存せずに、視覚空間表現のみを用いてクロスメディア検索を効果的に行うことができるか？
RQ2深層ニューラルネットワークが、テキスト入力のみから深層視覚特徴をどれほど正確に予測できるか？
RQ3予測された視覚特徴空間は、テキストから画像検索および画像からテキスト検索の両方において十分な意味的整合性を維持できるか？
RQ4予測された視覚特徴埋め込みは、意味的に意味のある形でテキストのみの検索タスクに利用できるか？
RQ5Clickture-Lite や Flickr8K のような大規模で現実世界のデータセットにおいて、モデルの性能はどの程度か？

主な発見

Word2VisualVecは、Flickr8KおよびClickture-Liteデータセットにおいて、テキストから画像検索および画像からテキスト検索の両タスクで最先端の性能を達成した。
モデルは、異なる評価設定においても検索精度の面で既存手法を上回り、堅牢性を示した。
予測された視覚特徴埋め込みは、クロスメディア検索に加え、テキストのみの検索に対しても有効であり、強力な意味的整合性を示している。
クリックログと画像キャプションをトレーニング信号として用いることで、現実世界の検索シナリオへの一般化が可能になった。
CaffeNet および GoogleNet からの特徴予測においても、モデルは強い性能を維持しており、アーキテクチャの柔軟性が裏付けられた。
整合性と再構成を目的とした損失関数は、予測された視覚特徴の品質を顕著に向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。