[论文解读] Edina: Building an Open Domain Socialbot with Self-dialogues
Edina 是一款用于 Alexa 奖的社交机器人,其使用自对话——即由单名工作者扮演对话中两个角色的对话——来收集自然且与话题相关的训练数据。通过结合置信度评分的匹配组件与基于规则和生成式模型,Edina 实现了高质量的回复和上下文相关性,且匹配置信度与人类评估结果高度相关(r=0.259,p<0.0005)。
We present Edina, the University of Edinburgh's social bot for the Amazon Alexa Prize competition. Edina is a conversational agent whose responses utilize data harvested from Amazon Mechanical Turk (AMT) through an innovative new technique we call self-dialogues. These are conversations in which a single AMT Worker plays both participants in a dialogue. Such dialogues are surprisingly natural, efficient to collect and reflective of relevant and/or trending topics. These self-dialogues provide training data for a generative neural network as well as a basis for soft rules used by a matching score component. Each match of a soft rule against a user utterance is associated with a confidence score which we show is strongly indicative of reply quality, allowing this component to self-censor and be effectively integrated with other components. Edina's full architecture features a rule-based system backing off to a matching score, backing off to a generative neural network. Our hybrid data-driven methodology thus addresses both coverage limitations of a strictly rule-based approach and the lack of guarantees of a strictly machine-learning approach.
研究动机与目标
- 解决开放域对话人工智能中广泛话题覆盖与自然回复生成的挑战。
- 克服开放域对话中大规模、无偏见且自然主义的对话数据集稀缺的问题。
- 开发一种成本低廉、可扩展的方法,以收集与话题相关、类人的对话,而无需依赖手工编写的规则。
- 在混合架构中整合基于规则、基于检索和神经生成的组件,以平衡覆盖范围与回复质量。
- 使系统能够通过置信度分数实现自我审查,以减少低质量回复,同时保持对话流畅性。
提出的方法
- 在 Amazon Mechanical Turk 上收集自对话,由单名工作者在给定话题下模拟对话中的两名参与者。
- 利用自对话语料库训练基于检索的匹配组件,该组件为候选回复计算基于 IDF 的置信度分数。
- 在分层流水线中将匹配组件与基于规则的系统和生成式神经网络集成:基于规则 → 置信度分数 → 生成模型。
- 当匹配分数较低时应用置信度阈值,以实现自我审查,仅选择高质量输出。
- 利用定期的数据收集来追踪热门话题,长期保持话题相关性。
- 利用匹配分数在置信度较低时引导主动用户互动,以维持对话流畅性。
实验结果
研究问题
- RQ1通过 Mechanical Turk 收集的自对话能否产生高质量、自然且与话题相关的开放域社交机器人训练数据?
- RQ2置信度评分的检索组件在选择高质量回复的同时,能否有效减少不连贯或偏离主题的回复?
- RQ3结合基于规则、基于检索和生成式组件的混合架构,在开放域对话中能否显著优于纯数据驱动或纯基于规则的系统?
- RQ4匹配组件的置信度分数能否作为人类对回复质量评估的可靠代理?
- RQ5自对话数据收集方法在维护随时间演化的对话领域中的主题相关性方面,其可扩展性和成本效益如何?
主要发现
- 匹配组件的置信度分数与人类对回复质量的评估结果呈统计学上显著的正相关(r=0.259,p<0.0005)。
- 置信度分数高于 0.7 的回复,其人类评估平均得分为 3.60,显著高于匹配分数的总体平均值 3.08。
- 自对话产生了自然、引人入胜且与特定话题相关的对话,能够反映当前趋势,并支持对音乐、电影和体育等主题的深入讨论。
- 混合架构使 Edina 能够保持上下文相关性,处理多样化的子话题,并对用户关于机器人偏好的询问做出恰当回应。
- 该系统通过避免低置信度回复,有效实现了自我审查,降低了产生不连贯或偏离主题回复的风险。
- 该方法被证明具有成本效益,在初始数据收集阶段后,仅需定期更新数据即可保持与热门话题的同步。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。