QUICK REVIEW

[论文解读] Adversarial Evaluation of Dialogue Models

Anjuli Kannan, Oriol Vinyals|arXiv (Cornell University)|Jan 27, 2017

Topic Modeling参考文献 11被引用 66

一句话总结

该论文研究使用判别器来评估对话模型，通过区分机器生成的回应与人类回应；判别器的准确率约为62.5%，并揭示了已知的弱点，但实际应用仍存在不确定性。

ABSTRACT

The recent application of RNN encoder-decoder models has resulted in substantial progress in fully data-driven dialogue systems, but evaluation remains a challenge. An adversarial loss could be a way to directly evaluate the extent to which generated dialogue responses sound like they came from a human. This could reduce the need for human evaluation, while more directly evaluating on a generative task. In this work, we investigate this idea by training an RNN to discriminate a dialogue model's samples from human-generated samples. Although we find some evidence this setup could be viable, we also note that many issues remain in its practical application. We discuss both aspects and conclude that future work is warranted.

研究动机与目标

推动改进数据驱动对话系统的评估，超越困惑度和BLEU。
研究对抗性设置是否可以作为人类评估的自动代理。
考察训练好的判别器揭示生产级对话模型的优点与弱点。

提出的方法

生成器：一个序列到序列的RNN编码器-解码器，训练以最大化观测的 (o,r) 对中的 P(r|o)。
判别器：一个带编码器的RNN，和一个二元分类器，训练以区分 (o,r) 对，其中 r 是人类生成的还是由生成器产生。
生成器的训练目标：最大化数据的对数似然之和 log P(r1,...,rm|o1,...,on)。
判别器的训练目标：最大化数据的对数似然之和 log P(y|o1,...,on,r1,...,rm)，其中 y 表示人类(1)或生成器(0)。
实验设置仿照生产级 Smart Reply 数据；判别器在保留的对上训练，半数标记为人类、半数为生成器采样的回应。

实验结果

研究问题

RQ1在现实场景中，判别器是否能够有效地区分人类与机器生成的对话回应？
RQ2判别器揭示了对话模型的哪些弱点或偏差？
RQ3基于判别器的评估是否与人类判断或对话质量的提升一致？
RQ4在使用判别器进行自动对话评估时存在哪些实际挑战？

主要发现

判别器在区分生成器与人类回应方面的准确率为62.5%。
判别器的决策反映出已知的弱点：长度分布偏差以及对像 'Thank you' 之类简短回复的依赖。
判别器偏好使用不那么常见的语言和更长的回应，凸显多样性和长度信号作为显著特征。
以判别器分数排序与生成器对数似然排序不同，在比较同长度回应时相关性很弱（Spearman 约 -0.02）。
判别器的表现揭示了人类观察到的弱点，但并不能证明是人类评估或整体质量的可靠代理。
研究建议进一步调查，并对将判别器作为独立评估工具的依赖提出谨慎警告。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。