QUICK REVIEW

[论文解读] Answerer in Questioner's Mind for Goal-Oriented Visual Dialogue.

Sang-Woo Lee, Yu‐Jung Heo|arXiv (Cornell University)|Feb 12, 2018

Multimodal Machine Learning Applications参考文献 40被引用 17

一句话总结

本文提出了问题者心智中的回答者（AQM），这是一种以目标为导向的视觉对话框架，通过使用概率信息增益建模回答者的可能回应，使问题者能够推断回答者意图。AQM 在 MNIST 计数对话和 GuessWhat?! 任务上优于现有方法，同时生成类人的对话。

ABSTRACT

Goal-oriented dialogue has been paid attention for its numerous applications in artificial intelligence. To solve this task, deep learning and reinforcement learning have recently been applied. However, these approaches struggle to find a competent recurrent neural questioner, owing to the complexity of learning a series of sentences. Motivated by theory of mind, we propose Answerer in Questioner's Mind (AQM), a novel algorithm for goal-oriented dialogue. With AQM, a questioner asks and infers based on an approximated probabilistic model of the answerer. The questioner figures out the answerer's intent via selecting a plausible question by explicitly calculating the information gain of the candidate intentions and possible answers to each question. We test our framework on two goal-oriented visual dialogue tasks: MNIST Counting Dialog and GuessWhat?!. In our experiments, AQM outperforms comparative algorithms and makes human-like dialogue. We further use AQM as a tool for analyzing the mechanism of deep reinforcement learning approach and discuss the future direction of practical goal-oriented neural dialogue systems.

研究动机与目标

为解决由于序列推理复杂性，导致在以目标为导向的视觉对话中训练高效循环神经网络问题者所面临的挑战。
通过基于概率推理机制建模回答者意图，提升对话效率与类人程度。
使问题者能够选择能最大化关于回答者意图和目标概念信息增益的问题。
提供一种分析基于深度强化学习的对话系统的方法，通过提供一种透明、可解释的替代方案。

提出的方法

AQM 使用概率框架建模回答者意图，估算候选意图和答案的可能性。
问题者通过计算每个候选问题在可能意图和答案上的期望信息增益来选择问题。
它通过贝叶斯推理迭代更新，维护对回答者可能意图的内部信念状态。
该框架使用对回答者响应分布的可微分近似来指导问题生成。
它整合图像中的视觉特征，将问题建立在视觉上下文中，尤其适用于视觉任务。
该方法使用人类标注对话的监督信号进行端到端训练，避免了强化学习的复杂性。

实验结果

研究问题

RQ1在不依赖强化学习的情况下，问题者如何在以目标为导向的视觉对话中有效推断回答者意图？
RQ2信息增益在选择能减少对目标概念不确定性最优问题的过程中起到什么作用？
RQ3与基于深度强化学习的基线方法相比，对回答者响应的概率建模是否能提升对话效率和类人程度？
RQ4问题者对回答者心智的内部模型如何影响其在视觉对话任务中的表现？
RQ5AQM 是否可作为诊断工具，用于分析端到端深度强化学习对话智能体的行为？

主要发现

AQM 在 MNIST 计数对话和 GuessWhat?! 基准任务上的表现优于现有强化学习和监督基线方法。
通过显式地使用概率推理建模回答者意图，该模型生成了更具类人特征的对话。
基于信息增益的问题选择可实现更快收敛，并减少识别目标概念所需的问题数量。
AQM 在样本效率和可解释性方面优于端到端深度强化学习方法。
该框架揭示了神经对话智能体决策过程的内在机制，凸显了心智状态建模的重要性。
AQM 在多种视觉对话场景中表现稳健，表明其具备强大的泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。