QUICK REVIEW

[論文レビュー] Answerer in Questioner's Mind for Goal-Oriented Visual Dialogue.

Sang-Woo Lee, Yu‐Jung Heo|arXiv (Cornell University)|Feb 12, 2018

Multimodal Machine Learning Applications参考文献 40被引用数 17

ひとこと要約

本稿では、確率的情報利得を用いて応答者の妥当な反応をモデル化することで、質問者が応答者の意図を推論できるようにする、目的志向型ビジョナル・ダイアログフレームワークであるAnswerer in Questioner's Mind (AQM) を提案する。AQM は、MNIST Counting Dialog および GuessWhat?! において、既存の手法を上回る性能を発揮するとともに、人間らしい対話を生成する。

ABSTRACT

Goal-oriented dialogue has been paid attention for its numerous applications in artificial intelligence. To solve this task, deep learning and reinforcement learning have recently been applied. However, these approaches struggle to find a competent recurrent neural questioner, owing to the complexity of learning a series of sentences. Motivated by theory of mind, we propose Answerer in Questioner's Mind (AQM), a novel algorithm for goal-oriented dialogue. With AQM, a questioner asks and infers based on an approximated probabilistic model of the answerer. The questioner figures out the answerer's intent via selecting a plausible question by explicitly calculating the information gain of the candidate intentions and possible answers to each question. We test our framework on two goal-oriented visual dialogue tasks: MNIST Counting Dialog and GuessWhat?!. In our experiments, AQM outperforms comparative algorithms and makes human-like dialogue. We further use AQM as a tool for analyzing the mechanism of deep reinforcement learning approach and discuss the future direction of practical goal-oriented neural dialogue systems.

研究の動機と目的

逐次的推論の複雑さに起因する、目的志向型ビジョナル・ダイアログにおける有能な再帰的ニューラル質問者の訓練の課題に対処すること。
確率的推論機構を用いて応答者の意図をモデル化することで、対話の効率性と人間らしい質感を向上させること。
質問者が応答者の意図およびターゲット・コンセプトに関する情報量を最大化する質問を選択できるようにすること。
人間がアノテートした対話を用いた教師信号を用いてエンド・ツー・エンドに訓練されるため、強化学習の複雑さを回避する透明で解釈可能な代替手段を提供すること。

提案手法

AQM は、候補となる意図および回答の尤度を推定する確率的フレームワークを用いて、応答者の意図をモデル化する。
質問者は、各候補となる質問について、可能な意図および回答の上での期待情報利得を計算することで質問を選択する。
ベイズ推論を用いて反復的に更新される、応答者の可能性のある意図に関する内部信念状態を維持する。
質問生成をガイドするために、応答者の応答分布の微分可能近似を用いる。
特にビジョナル・タスクにおいて、画像からの視覚的特徴を統合して質問を視覚的文脈に根ざさせること。
強化学習の複雑さを回避するため、人間がアノテートした対話からの教師信号を用いてエンド・ツー・エンドに訓練される。

実験結果

リサーチクエスチョン

RQ1強化学習に依存せずに、目的志向型ビジョナル・ダイアログ中に質問者が応答者の意図を効果的に推論するにはどうすればよいか？
RQ2ターゲット・コンセプトに関する不確実性を低減する最適な質問の選択において、情報利得が果たす役割は何か？
RQ3応答者の反応を確率的モデル化することで、深層強化学習ベースのベースラインと比較して、対話の効率性と人間らしい質感が向上するか？
RQ4質問者の応答者の心の状態を表す内部モデルが、ビジョナル・ダイアログタスクにおけるパフォーマンスに与える影響は何か？
RQ5AQM は、エンド・ツー・エンドの深層強化学習ベースの対話エージェントの行動を分析するための診断ツールとして機能できるか？

主な発見

AQM は、既存の強化学習および教師ありベースラインと比較して、MNIST Counting Dialog および GuessWhat?! のベンチマークタスクで優れたパフォーマンスを達成する。
確率的推論を用いて応答者の意図を明示的にモデル化することで、AQM はより人間らしい対話を生成する。
情報利得に基づく質問選択は、ターゲット・コンセプトを特定するまでの収束が速く、必要な質問数も少なくなる。
エンド・ツー・エンドの深層強化学習アプローチと比較して、AQM はより高いサンプル効率性と解釈可能性を示す。
フレームワークは、ニューラル対話エージェントの意思決定プロセスに関する洞察を明らかにし、心の状態モデル化の重要性を強調する。
AQM のパフォーマンスは、多様なビジョナル・ダイアログシナリオにわたり安定しており、強力な一般化能力を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。