QUICK REVIEW

[论文解读] Reasoning About Pragmatics with Neural Listeners and Speakers

Jacob Andreas, Dan Klein|arXiv (Cornell University)|Apr 2, 2016

Multimodal Machine Learning Applications参考文献 20被引用 39

一句话总结

本文提出了一种神经框架，将学习到的听者与说话者模型与高阶推理相结合，以生成无需显式标注语用数据的上下文语用描述。通过在话语选择过程中推理听者行为，该模型在指代表达游戏中实现了81%的成功率——比先前的端到端基线高出17个百分点，表明仅从普通字幕中即可学习语用语言生成。

ABSTRACT

We present a model for pragmatically describing scenes, in which contrastive behavior results from a combination of inference-driven pragmatics and learned semantics. Like previous learned approaches to language generation, our model uses a simple feature-driven architecture (here a pair of neural "listener" and "speaker" models) to ground language in the world. Like inference-driven approaches to pragmatics, our model actively reasons about listener behavior when selecting utterances. For training, our approach requires only ordinary captions, annotated _without_ demonstration of the pragmatic behavior the model ultimately exhibits. In human evaluations on a referring expression game, our approach succeeds 81% of the time, compared to a 69% success rate using existing techniques.

研究动机与目标

开发一种可扩展、数据驱动的计算语用学方法，无需手工设计的语法或语用学标注的训练数据。
通过结合神经模型与基于推理的推理，弥合直接学习方法（需要语用监督）与推导推理方法（依赖手工编码模型）之间的差距。
通过在话语生成过程中模拟听者行为，使神经模型能够生成上下文恰当、信息丰富且流畅的描述。
评估在训练数据缺乏显式语用标注的情况下，对听者响应进行推理是否能提升语用性能。

提出的方法

该模型使用一对神经基础模型：听者（L0）从描述中预测最可能的指代对象，说话者（S0）从图像特征生成字幕。
高阶推理说话者（S1）通过模拟听者对候选描述的响应来选择话语，使用蒙特卡洛采样来近似听者行为。
推理说话者采用概率框架，选择能最大化听者正确理解可能性的描述，基于听者预测的响应分布。
该模型在标准图像字幕数据上进行端到端训练，无需额外的语用学标注，仅依赖目标与干扰场景之间的对比。
训练了一个编译后的说话者模型以模仿推理说话者的行为，但其性能较差，表明推理过程难以通过直接的神经映射近似。
评估通过指代表达游戏（RG）进行，说话者必须在与干扰对象对比的情况下描述目标图像，听者需根据描述选择正确图像。

实验结果

研究问题

RQ1在无法访问显式标注的语用学训练数据的情况下，学习到的神经模型能否生成语用描述？
RQ2与直接神经字幕生成相比，对听者行为的推理在多大程度上能提升指代表达生成的成功率？
RQ3当仅能使用标准字幕进行训练时，基于神经听者与说话者组件的推导模型是否优于直接学习基线？
RQ4基于推理的说话者模型能否在目标与干扰图像之间视觉差异多样的场景中实现泛化？
RQ5说话者模型中的推理过程是否可通过更简单的端到端神经网络近似，还是推理步骤对性能至关重要？

主要发现

推理模型（S1）在测试集上的指代表达游戏成功率达到81%，显著优于字面字幕基线（S0）的64%。
在困难样本对（视觉差异更大的场景）中，推理模型的成功率为68%，而字面基线为53%，表明在复杂情境下仍具鲁棒性。
在所有样本对中，推理模型相比字面基线性能提升17个百分点，在困难样本对中提升15个百分点，所有差异均具有统计显著性（p < 0.05）。
编译说话者模型（训练以模仿推理说话者）表现显著较差，准确率仅为69%，表明推理过程难以通过直接神经映射近似。
该模型成功生成了上下文敏感的描述：例如，当目标与蛇的场景对比时描述为“bat”，当对比对象为蝙蝠时则描述为“snake”，展示了上下文敏感性。
人工评估确认，该模型的描述比先前学习模型的描述更具信息量，且更有效地引导听者找到正确目标。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。