QUICK REVIEW

[論文レビュー] Word2VisualVec: Image and Video to Sentence Matching by Visual Feature Prediction

Jianfeng Dong, Xirong Li|arXiv (Cornell University)|Apr 23, 2016

Multimodal Machine Learning Applications参考文献 61被引用数 45

ひとこと要約

この論文では、共同埋め込み空間を避けて、テキスト記述から直接深層視覚特徴を予測することにより、画像および動画と文のマッチングを実現する深層ニューラルネットワーク、Word2VisualVecを提案する。文のベクトル表現にword2vecを用い、マルチレイヤーパーセプトロンを介してテキストを視覚特徴空間にマッピングすることで、3D-CNNや音声・視覚特徴を含む、4つのベンチマークで最先端の性能を達成する。

ABSTRACT

This paper strives to find the sentence best describing the content of an image or video. Different from existing works, which rely on a joint subspace for image / video to sentence matching, we propose to do so in a visual space only. We contribute Word2VisualVec, a deep neural network architecture that learns to predict a deep visual encoding of textual input based on sentence vectorization and a multi-layer perceptron. We thoroughly analyze its architectural design, by varying the sentence vectorization strategy, network depth and the deep feature to predict for image to sentence matching. We also generalize Word2VisualVec for matching a video to a sentence, by extending the predictive abilities to 3-D ConvNet features as well as a visual-audio representation. Experiments on four challenging image and video benchmarks detail Word2VisualVec's properties, capabilities for image and video to sentence matching, and on all datasets its state-of-the-art results.

研究の動機と目的

共同部分空間学習に依存しない画像および動画と文のマッチングを解決すること。
クロスモodalマッチングのための唯一の共有空間としての深層視覚特徴空間の有効性を検討すること。
自然言語記述から、ResNet や GoogLeNet、または3D-CNN などの多様な視覚特徴を予測できるモデルの開発。
音声・視覚表現（例：Mel周波数ケプストラム係数（MFCC）を含む）を統合することで、動画へのアプローチを拡張すること。
視覚空間のみで、従来の共同部分空間手法を上回るマッチング精度を達成できることを示すこと。

提案手法

Word2VisualVecは、文の表現にword2vec埋め込みを入力とし、大規模語彙のスケーラブルな処理を可能にする。
マルチレイヤーパーセプトロン（MLP）が文ベクトルを深層視覚特徴空間にマッピングし、事前学習済みのCNN（例：GoogLeNet、ResNet）からの特徴を予測する。
予測された視覚特徴と真値との間のL2距離を最小化するようにモデルを学習させ、エンドツーエンド学習を可能にする。
動画処理では、C3D や I3D からの3D-CNN特徴および視覚・音声特徴（例：MFCC）をテキストから予測するように拡張される。
アーキテクチャは柔軟であり、訓練時に使用された任意の深層視覚特徴表現に適応可能である。
モデルのハイパーパrameterは検証セットで調整され、最終的なモデルはTrecVid 2016などの盲検証セットで評価される。

実験結果

リサーチクエスチョン

RQ1共同部分空間に依存せずに、視覚特徴空間での画像および動画と文のマッチングが効果的に行えるか？
RQ2文のベクトル表現戦略の選択（例：word2vec 対バッグオブワーズ）がマッチング性能に与える影響は？
RQ3ネットワークの深さおよびターゲット視覚特徴（例：fc7 対 conv5）が予測精度およびマッチング性能に与える影響は？
RQ4テキスト記述から3D-CNNおよび音声・視覚特徴を予測することで、モデルが動画処理に一般化可能か？
RQ5テキストから視覚特徴を予測することで、共同埋め込みモデルと比較して最先端の結果が得られるか？

主な発見

Flickr8kではR@1が33.6%、R@10が75.3%を達成し、領域レベルのアノテーションを用いた先行研究を上回る。
Flickr30kではR@1が39.7%、R@10が76.7%を達成し、Kleinら[16] や Plummer ら[26] のモデルを上回るが、領域レベルの監視なしに実現。
NIST TrecVid 2016 動画から文へのベンチマークでは、セットBで平均逆順位（Mean Inverted Rank）が0.110、セットAで0.097を記録し、7カ国7チームの参加者の中で最高。
音声・視覚特徴予測の追加により、TrecVidベンチマークでの性能がさらに向上し、モデルがマルチモーダル入力を処理できる能力を示している。
視覚空間のみで高精度なマッチングが可能であることが実証され、共同部分空間学習の必要性が疑問視される。
アブレーションスタディにより、word2vecベースの文表現とより深いMLPが、特徴予測およびマッチング精度を向上させることを確認。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。