QUICK REVIEW

[論文レビュー] Visual Madlibs: Fill in the blank Image Generation and Question Answering

Licheng Yu, Eunbyung Park|arXiv (Cornell University)|May 31, 2015

Multimodal Machine Learning Applications参考文献 32被引用数 80

ひとこと要約

本論文は、人物、物体、行動、文脈的要素について詳細な記述を引き出すために、自動生成されたテンプレートを用いた、10,738枚の画像を対象にした360,001件の穴埋め記述を含む「Visual Madlibs」データセットを紹介する。本研究では、焦点を当てた記述生成と複数選択式の画像質問応答という2つの新しいタスクを提案し、ジョイントエンベッディングモデルとCNN+LSTMモデルの性能を評価した。その結果、生成タスクではCNN+LSTMモデルがより高いBLEUスコアを達成した一方、細分化された複数選択式QAタスクでは、とくにハードネガティブ例を含むケースでジョイントエンベッディングモデルが優れた性能を示した。

ABSTRACT

In this paper, we introduce a new dataset consisting of 360,001 focused natural language descriptions for 10,738 images. This dataset, the Visual Madlibs dataset, is collected using automatically produced fill-in-the-blank templates designed to gather targeted descriptions about: people and objects, their appearances, activities, and interactions, as well as inferences about the general scene or its broader context. We provide several analyses of the Visual Madlibs dataset and demonstrate its applicability to two new description generation tasks: focused description generation, and multiple-choice question-answering for images. Experiments using joint-embedding and deep learning methods show promising results on these tasks.

研究の動機と目的

穴埋めテンプレートを用いて、自動的かつスケーラブルな方法で、画像の詳細で的を射た自然言語記述を収集するための手法の開発。
外見、行動、相互作用、文脈的推論を焦点にした12種類の質問タイプを含む、合計360,001件の記述を有する新しいデータセット「Visual Madlibs」の作成。
焦点を当てた記述生成と、洗練された難易度制御が可能な複数選択式画像質問応答という2つの新しいタスクの定義と評価。
これらの新しいタスクにおけるジョイントエンベッディングモデルとエンドツーエンドのCNN+LSTMシーケンスモデルの性能比較。
研究の進展を促進するため、公開されたデータとベンチマークを提供し、文脈に根ざした言語理解と視覚的キャプション生成分野の発展を支援。

提案手法

特定の視覚的属性を対象にした12種類の穴埋めテンプレートを自動生成：例として「The person is [blank]」（行動を対象）や「The frisbee is [blank]」（外見を対象）など。
10,738枚の画像に対して、これらのテンプレートを用いて人手によるアノテーションで360,001件の記述を収集し、焦点を当てた言語的アノテーションを確保。
各質問タイプごとにCNN+LSTMモデルを訓練し、画像特徴とプロンプトプレフィックス（例：「The chair is」）を条件として記述を生成。
画像とテキストを共有の空間にマップするジョイントエンベッディングモデル（nCCA）を用い、コサイン類似度によるゼロショット記述生成と複数選択式の回答選択を可能にする。
複数選択式QAのため、生成された記述と候補となる回答との間でWord2Vecのコサイン類似度を計算し、類似度が最も高いものを予測回答として選択。
R-CNN検出器から得られるバウンディングボックス特徴を用いて属性予測の性能を向上させ、真値のバウンディングボックスと検出されたボックスの両方を比較。

実験結果

リサーチクエスチョン

RQ1自動生成された穴埋めテンプレートは、行動、外見、文脈的推論を含む視覚的コンテンツの詳細で的を射た記述を効果的に引き出せるか？
RQ2ジョイントエンベッディングモデルとエンドツーエンドのシーケンスモデルは、多様な質問タイプにおいて焦点を当てた画像記述を生成する上で、どのように比較されるか？
RQ3制御されたネガティブ例を含む複数選択式の質問応答は、画像記述システムの洗練された信頼性の高い評価指標を提供できるか？
RQ4視覚的特徴として検出されたバウンディングボックスを用いることで、属性関連の記述タスクの性能が向上するか？
RQ5MS COCOの一般的な画像キャプションと比較して、Visual Madlibsの人がアノテートした記述は詳細さと多様性に優れているか？

主な発見

CNN+LSTMモデルは、焦点を当てた記述生成において、nCCAよりも高いBLEU-1およびBLEU-2スコア（例：'obj pos'では0.71、'per loc'では0.64）を達成しており、より優れた文の流れと正確性を示している。
nCCAモデルは、とくにハードバージョンの複数選択式QAタスクでCNN+LSTMを上回り、全モデルを用いた場合に「scene」で0.52、「obj aff」で0.56の精度を達成した。
検出されたバウンディングボックスを用いることで、nCCAの属性予測精度が向上（例：'obj aff'では0.60、全画像を用いた場合の0.56と比較）したが、他の質問タイプでは向上しなかった。
少なくとも3/5のTurkerが正解に合意したハードな複数選択式質問のアノテート済みサブセットでは、nCCAがCNN+LSTMよりも高い精度を維持し、一貫性のある性能パターンを示した。
Visual Madlibsデータセットは、MS COCOの一般的な画像キャプションと比較して、より詳細で文脈的に豊かな記述を含んでおり、行動、外見、感情、時間的推論をカバーする12種類の異なる質問タイプを有する。
すべての質問タイプを一度に学習したnCCAモデル（nCCA(all)）は、簡単な複数選択式質問では高い精度を達成したが、細分化されたハードバージョンでは性能が劣り、タスク固有のファインチューニングが有効である可能性を示唆した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。