[论文解读] Approximating Interactive Human Evaluation with Self-Play for Open-Domain Dialog Systems
论文提出一个自我对弈框架,使用受心理学启发的指标来近似开放域对话系统的互动式人类评估,与人类判断高度相关(r > 0.7, p < .05)。它还对层次对话模型进行情感与语义蒸馏正则化,并开放数据与平台源。
Building an open-domain conversational agent is a challenging problem. Current evaluation methods, mostly post-hoc judgments of static conversation, do not capture conversation quality in a realistic interactive context. In this paper, we investigate interactive human evaluation and provide evidence for its necessity; we then introduce a novel, model-agnostic, and dataset-agnostic method to approximate it. In particular, we propose a self-play scenario where the dialog system talks to itself and we calculate a combination of proxies such as sentiment and semantic coherence on the conversation trajectory. We show that this metric is capable of capturing the human-rated quality of a dialog model better than any automated metric known to-date, achieving a significant Pearson correlation (r>.7, p
研究动机与目标
- 论证多轮互动评估对开放域对话系统的重要性。
- 引入一个自我对弈框架,使用以心理学为依据的指标来近似互动性人类评估。
- 证明在自我对弈上计算的混合指标与人类判断高度相关(r > 0.7)。
- 用情感与语义知识蒸馏正则化层次对话模型,以提升互动性能。
- 开源评估平台与基于 Reddit 的数据集,以促进可重复性。
提出的方法
- 定义受心理学启发的情感、语义和参与度指标(情感连贯性、Infersent 基于的语义相似性、词汇/连贯性度量、通过提问衡量参与度)。
- 训练一个映射将这些指标映射到人类判断,使用互动评估数据。
- 通过让对话模型生成一个10轮轨迹并计算相同指标来应用自我对弈,使用学习到的映射来预测质量。
- 使用 EI 蒸馏对 HRED/VHRED/VHCR 的顶层 Context RNN 进行正则化,以在话语中编码情感与语义。
- 在 Cornell 与 Reddit 数据集上使用互动评估和静态指标比较基线和 EI 变体。
- 开源代码、数据与评估平台。
实验结果
研究问题
- RQ1自我对弈框架能否有效近似互动式多轮评估?
- RQ2心理学启发的指标(情感、语义、参与度)是否能预测对话质量的人类判断?
- RQ3将情感和语义的知识蒸馏到分层对话模型中是否提升互动评估表现?
- RQ4基于自我对弈的指标与传统自动指标在与人类判断相关性方面有何差异?
主要发现
- 基于自我对弈的混合指标 M_H 在不同模型上与人类评分高度相关(r > .7, p < .05)。
- EI 正则化在 Cornell 与 Reddit 数据上均提高了 HRED、VHRED、VHCR 架构的互动评估结果。
- 静态自动指标(困惑度、KL、嵌入距离)与人类判断相关性较弱或不一致。
- EI 模型在互动设置和自我对弈中引发更长、更有参与度、语义连贯的对话。
- 基于 Reddit 的训练数据在互动评估表现上优于 Cornell 数据。
- 单独的静态人工评估显示高度方差和低评注者一致性,凸显互动评估的价值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。