QUICK REVIEW

[論文レビュー] GuessWhat?! Visual object discovery through multi-modal dialogue

Harm de Vries, Florian Strub|arXiv (Cornell University)|Nov 23, 2016

Multimodal Machine Learning Applications参考文献 36被引用数 18

ひとこと要約

本稿では、MS COCOの66,537枚の画像から得られた150,000件のマルチターン視覚対話と800,000件の質問・回答ペアを含む大規模かつ人間がアノテートしたデータセットGuessWhat?! を紹介する。このフレームワークにより、1人のエージェントが「はい／いいえ」の質問を繰り返し行い、ターゲットオブジェクトを特定する協力的ゲームとしての対話的で文脈に配慮した言語理解の研究が可能になる。深層学習ベースラインは、対話的かつ文脈に配慮した言語の視覚的根拠づけの難しさを示している。

ABSTRACT

We introduce GuessWhat?!, a two-player guessing game as a testbed for research on the interplay of computer vision and dialogue systems. The goal of the game is to locate an unknown object in a rich image scene by asking a sequence of questions. Higher-level image understanding, like spatial reasoning and language grounding, is required to solve the proposed task. Our key contribution is the collection of a large-scale dataset consisting of 150K human-played games with a total of 800K visual question-answer pairs on 66K images. We explain our design decisions in collecting the dataset and introduce the oracle and questioner tasks that are associated with the two players of the game. We prototyped deep learning models to establish initial baselines of the introduced tasks.

研究の動機と目的

人間の視覚的推論を会話によって模倣することで、視覚的根拠づけとマルチモーダル対話のためのスケーラブルなインタラクティブベンチマークの開発。
協力的ゲームの文脈で逐次的かつ文脈に配慮した質問の仕方を通じて、自然言語を視覚的状況に根拠づける課題に取り組む。
視覚と言語のモデルのトレーニングおよび評価を支援する大規模で人間がアノテートしたデータセットを提供すること。
視覚対話における質問者とオラクルの役割のベースラインモデルを確立し、言語の根拠づけと視覚的推論の評価を可能にする。

提案手法

GuessWhat?! ゲームは協力的な2人用タスクとして構造化されており、質問者が視覚シーン内のターゲットオブジェクトを「はい／いいえ」の質問によって特定し、オラクルは隠されたオブジェクトに基づいて真実を正しく回答する。
66,537枚のMS COCO画像を用いて、人間プレイヤーから155,280件の対話（831,889個のQAペア）のデータセットを収集した。言語的多様性と視覚的推論の現実性を保つために明示的な設計選択が採用された。
質問者のタスクは、画像のVGG-19特徴量に条件付けられた階層的再帰エンコーダ・デコーダ（HRED）アーキテクチャでモデル化され、質問系列の条件付き対数尤度を最大化するように訓練された。
オラクルのタスクは、画像特徴量と質問埋め込みの上に構築された二値分類ヘッドとしてモデル化され、ターゲットオブジェクトの存在に応じて「はい／いいえ」の回答を予測する。
ベースラインモデルは2つの設定で評価された：QGEN+GT（正解回答で訓練）とQGEN+ORACLE（オラクルが生成した回答で訓練）。誤りの蓄積に対する耐性を評価するためである。
評価には、対話履歴からターゲットオブジェクトを予測するガッサー・モデルが用いられ、誤り率が主な指標として使用され、生成された質問の質を評価した。

実験結果

リサーチクエスチョン

RQ1人間がアノテートした大規模な視覚対話データセットをどのように収集すれば、言語の根拠づけと視覚的推論の研究を支援できるか？
RQ2マルチターン視覚対話の文脈で、文脈的に関連性があり、情報量のある質問を生成する質問ジェネレータを訓練する上での主な課題は何か？
RQ3不完全なオラクルおよびガッサー・モデルによる誤りの蓄積が、現実世界のインタラクティブ環境における質問ジェネレータの性能にどのように影響するか？
RQ4HREDのような深層学習モデルが視覚的条件付けを受けても、視覚対話タスクで人間レベルの性能に到達できるか？
RQ5GuessWhat?! フレームワークは、ワンショット学習、トランスファー学習、多言語対話などの下流タスクをサポートできるか？

主な発見

人間がアノテートしたGuessWhat?! データセットには、66,537枚の画像にまたがる155,280件の対話と831,889個の質問・回答ペアが含まれており、視覚対話研究のための豊富なリソースを提供している。
人間が生成した対話に基づいて訓練されたガッサー・モデルは、ターゲットオブジェクトを特定する際、38.7％の誤り率を示し、強力なベースラインを確立した。
QGEN+GTモデル（正解回答で訓練）は53.2％の誤り率を達成しており、質問ジェネレータが妥当な情報量を持つ質問を生成できることを示している。
QGEN+ORACLEモデル（オラクルが生成した回答で訓練）は著しく悪い成績を示し、66.0％の誤り率を記録しており、インタラクティブシステムにおける誤りの蓄積の難しさが浮き彫りになった。
ランダムベースラインは82.9％の誤り率を示しており、タスクが自明ではなく、提案されたモデルが偶然を超える意味のあるパターンを学習していることが確認された。
結果から、現在のモデルは妥当な質問を生成できるものの、特に現実世界の推論条件下では人間の推論能力と比べて顕著な性能ギャップが残っていることが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。