QUICK REVIEW

[論文レビュー] Visual Dialog

Abhishek Das, Satwik Kottur|arXiv (Cornell University)|Nov 26, 2016

Multimodal Machine Learning Applications参考文献 52被引用数 30

ひとこと要約

この論文は、画像、会話履歴、質問を用いて視覚的コンテンツについて根拠のある会話的対話を展開するAIエージェントを提示する、Visual Dialogというタスクを紹介している。本研究では、約120万のQAペアを含む大規模なデータセット（VisDial v0.9）、後期統合、階層的RNN、メモリネットワークを備えたニューラルモデルのファミリー、およびリトリーブベースの評価プロトコルを提案し、人間と機械の間の顕著な性能差を人間による研究によって定量的に示した、初めての機能的な「視覚的チャットボット」の実装を達成した。

ABSTRACT

We introduce the task of Visual Dialog, which requires an AI agent to hold a meaningful dialog with humans in natural, conversational language about visual content. Specifically, given an image, a dialog history, and a question about the image, the agent has to ground the question in image, infer context from history, and answer the question accurately. Visual Dialog is disentangled enough from a specific downstream task so as to serve as a general test of machine intelligence, while being grounded in vision enough to allow objective evaluation of individual responses and benchmark progress. We develop a novel two-person chat data-collection protocol to curate a large-scale Visual Dialog dataset (VisDial). VisDial v0.9 has been released and contains 1 dialog with 10 question-answer pairs on ~120k images from COCO, with a total of ~1.2M dialog question-answer pairs. We introduce a family of neural encoder-decoder models for Visual Dialog with 3 encoders -- Late Fusion, Hierarchical Recurrent Encoder and Memory Network -- and 2 decoders (generative and discriminative), which outperform a number of sophisticated baselines. We propose a retrieval-based evaluation protocol for Visual Dialog where the AI agent is asked to sort a set of candidate answers and evaluated on metrics such as mean-reciprocal-rank of human response. We quantify gap between machine and human performance on the Visual Dialog task via human studies. Putting it all together, we demonstrate the first 'visual chatbot'! Our dataset, code, trained models and visual chatbot are available on this https URL

研究の動機と目的

視覚的理解と自然言語インタラクションに基づいた機械知能の一般用途ベンチマークを構築すること。
COOの12万枚の画像をカバーする120万個の質問-回答ペアを含む、多様性に富んだ大規模なVisual Dialogデータセット（VisDial v0.9）を収集すること。
後期統合、階層的再帰的、メモリネットワークエンコーダーを含む、視覚的対話用のニューラルエンコーダー・デコーダー・モデルのファミリーを設計・評価すること。
平均逆順位（mRR）などの指標を用いたリトリーブベースの評価プロトコルを提案し、モデルの性能を客観的に評価すること。
人間による研究を通じて、最先端のモデルと人間の性能の差を定量的に測定すること。

提案手法

画像に関する多様で文脈に富んだ会話を収集するため、2人一組のチャットデータ収集プロトコルを用い、根拠のある自然言語の対話が保証された。
VisDial v0.9データセットには、約12万枚のCOO画像ごとに1枚の画像に対して1つの会話が10個の質問-回答ペアを含み、合計で約120万のQAペアが含まれる。
3つのエンコーダー・アーキテクチャを提案した：後期統合（画像とテキスト特徴量の初期統合）、階層的再帰エンコーダー（RNNを用いて会話履歴を処理）、メモリネットワーク（会話履歴における長距離依存関係をモデル化）。
2つのデコーダーを評価した：生成型デコーダー（自己回帰的生成）と判別型デコーダー（候補回答の順位付け）。
リトリーブベースの評価プロトコルを導入し、モデルが候補回答を順位付けし、平均逆順位（mRR）などの指標でスコア付けされる。
人間による研究を通じて、視覚的対話タスクにおけるモデルと人間の性能差を測定した。

実験結果

リサーチクエスチョン

RQ1複数回の会話にわたり、文脈的一致性と視覚的根拠を保つことができる視覚的対話システムは、どのように設計できるか？
RQ2画像、会話履歴、質問を統合的なフレームワーク内で効果的にエンコードするための最も効果的なニューラルアーキテクチャは何か？
RQ3人間の推論や言語理解に類似した性能を反映するように、視覚的対話モデルの性能をどのように客観的に評価できるか？
RQ4現在の最先端のモデルと人間の性能との間には、Visual Dialogタスクでどの程度の性能差があるか？
RQ5視覚的で複数回の会話が可能な、大規模なデータセットを効果的に収集し、視覚エージェントの訓練とベンチマークに活用できるか？

主な発見

VisDial v0.9データセットには12万枚の画像が含まれており、1枚あたり10個の質問-回答ペアが付与されており、合計で120万の会話ターンが存在し、視覚的対話システムの包括的評価を可能にしている。
メモリネットワークと階層的再帰エンコーダーを統合したニューラルモデルが、複数の洗練されたベースラインを上回る性能を示した。
平均逆順位（mRR）を用いたリトリーブベースの評価プロトコルは、人間の反応と比較する際の信頼性の高い客観的指標を提供した。
人間による研究により、最高のモデルと人間の性能との間に顕著な性能差が確認され、文脈的推論と視覚的根拠の面でさらなる改善の余地があることが示された。
提案された視覚的チャットボットシステムは、エンドツーエンドの会話的視覚理解を成功裏に実装し、同種の実装としては初のものであった。
データセット、コード、トレーニング済みモデル、インタラクティブな視覚的チャットボットは、研究開発を目的として公開されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。