QUICK REVIEW

[論文レビュー] Answerer in Questioner's Mind: Information Theoretic Approach to Goal-Oriented Visual Dialog

Sangwoo Lee, Yu‐Jung Heo|arXiv (Cornell University)|Feb 12, 2018

Multimodal Machine Learning Applications被引用数 27

ひとこと要約

本稿では、目的志向型ビジュアルダイアログのための情報理論的枠組みであるAnswerer in Questioner's Mind (AQM) を提案する。AQM は、情報量の増加を最大化するために、回答者の意図を確率的にモデル化する。AQM は深層学習および強化学習のベースラインを上回り、GuessWhat?! タスクにおいて10ターンで78.72%の精度を達成した。これは、ターゲットオブジェクトに関する不確実性を最適に低減する質問を選択することで実現された。

ABSTRACT

Goal-oriented dialog has been given attention due to its numerous applications in artificial intelligence. Goal-oriented dialogue tasks occur when a questioner asks an action-oriented question and an answerer responds with the intent of letting the questioner know a correct action to take. To ask the adequate question, deep learning and reinforcement learning have been recently applied. However, these approaches struggle to find a competent recurrent neural questioner, owing to the complexity of learning a series of sentences. Motivated by theory of mind, we propose "Answerer in Questioner's Mind" (AQM), a novel information theoretic algorithm for goal-oriented dialog. With AQM, a questioner asks and infers based on an approximated probabilistic model of the answerer. The questioner figures out the answerer's intention via selecting a plausible question by explicitly calculating the information gain of the candidate intentions and possible answers to each question. We test our framework on two goal-oriented visual dialog tasks: "MNIST Counting Dialog" and "GuessWhat?!". In our experiments, AQM outperforms comparative algorithms by a large margin.

研究の動機と目的

深層学習および強化学習に基づく目的志向型ダイアログシステムにおける非効率性と冗長性を解消すること。
マインド理論を用いて回答者の可能性のある反応をモデル化することで、ビジュアルダイアログにおける質問選択を改善すること。
情報理論的質問計画を通じて対話効率を向上させる一般化可能でモデルに依存しない枠組みを開発すること。
対話エージェントにおける人間らしい意図のモデル化を通じて、人間との対話への一般化を向上させること。
目的志向型ダイアログにおける既存の深層学習手法の分析および改善のための理論的かつ実用的なツールを提供すること。

提案手法

AQM は、回答者の意図と応答分布の確率的モデルを用いて、候補となる質問の情報量の増加を計算する。
質問者は、各質問が可能な応答の空間をどの程度効果的に分割するかを評価することで、情報量の増加を最大化する質問を選択する。
この枠組みは、対話履歴を追跡するための再帰的ニューラルネットワーク（RNN）の必要性を回避する、回答者意図の近似事後分布に依存している。
AQM は、訓練データから抽出するか、seq2seq モデルを介して生成するなど、さまざまな質問サンプリング戦略と統合可能である。
情報量の増加は、候補となる応答の事前分布と事後分布のエントロピー低下を用いて計算される。
事前学習済みの質問生成モデルを用いて、新たな質問を生成するようにこの手法を拡張し、候補選択にはビームサーチを用いる。

実験結果

リサーチクエスチョン

RQ1複雑なRNNに依存せずに、目的志向型ビジュアルダイアログにおける質問者が効率的に質問を選択する方法は何か？
RQ2情報量の増加を用いて回答者の意図をモデル化することで、標準的な深層学習および強化学習手法と比較して対話性能が向上するか？
RQ3AQM の情報理論的アプローチは、エンドツーエンド学習と比較して、データのサンプル効率性および精度の面でどの程度優れているか？
RQ4AQM は、既存の深層学習モデルを解釈または強化するためにどの程度活用できるか？
RQ5AQM は、未学習の画像に対して文脈的に関連する質問を生成するために拡張可能か？

主な発見

AQM は、GuessWhat.?! タスクにおいて3ターンで63.63%、10ターンで78.72%の精度を達成し、深層教師あり学習（5ターンで46.8%）および深層強化学習（4.1ターンで52.3%）のベースラインを顕著に上回った。
MNIST Counting Dialog タスクにおいて、AQM はベースライン手法よりも優れた性能を示し、ビジュアルダイアログを超えた汎用性を確認した。
seq2seq モデルを用いて質問を生成する AQM-gen1Q は、2ターンで51.07%の精度を達成し、元の深層教師あり学習手法（46.8%）をわずかに上回った。
5ターンでは、AQM-gen1Q は70.74%の精度を達成したが、AQM-countQ-depA（72.89%）をわずかに下回った。これは、質問生成の品質に伴うトレードオフを示している。
AQM が回答者意図の事後分布と、比較的モデルにおけるRNNの隠れ状態に相関があることから、注目メカニズムと信念追跡の間の理論的関連性が示唆された。
AQM の目的関数は、深層強化学習の目的関数と一致しており、RLベースの学習が、回答者の分布を暗黙的に近似していることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。