QUICK REVIEW

[论文解读] Neural Generation Meets Real People: Towards Emotionally Engaging Mixed-Initiative Conversations

Ashwin Paranjape, Abigail See|arXiv (Cornell University)|Aug 27, 2020

AI in Service Interactions参考文献 27被引用 25

一句话总结

本文介绍了 Chirpy Cardinal，这是一个开放域社交聊天机器人，利用神经生成技术实现与真实用户的富有情感的、混合主导权的对话。通过整合世界知识、共情式回复生成以及通过模块化回复生成器支持用户主导的对话，该系统在 2019 年 Alexa 奖竞赛中实现了平均对话时长 2 分 16 秒，最终平均评分为 3.6/5.0。

ABSTRACT

We present Chirpy Cardinal, an open-domain dialogue agent, as a research platform for the 2019 Alexa Prize competition. Building an open-domain socialbot that talks to real people is challenging - such a system must meet multiple user expectations such as broad world knowledge, conversational style, and emotional connection. Our socialbot engages users on their terms - prioritizing their interests, feelings and autonomy. As a result, our socialbot provides a responsive, personalized user experience, capable of talking knowledgeably about a wide variety of topics, as well as chatting empathetically about ordinary life. Neural generation plays a key role in achieving these goals, providing the backbone for our conversational and emotional tone. At the end of the competition, Chirpy Cardinal progressed to the finals with an average rating of 3.6/5.0, a median conversation duration of 2 minutes 16 seconds, and a 90th percentile duration of over 12 minutes.

研究动机与目标

构建一个开放域社交聊天机器人，支持与真实用户进行深入、富有情感且个性化的对话。
通过允许用户主导对话主题同时保持连贯性和参与度，实现混合主导权。
通过将神经生成与符号约束相结合，克服脚本化或机器人主导的对话系统局限。
通过共情式回复生成和相互分享观点与经历，支持持久的情感联结。
通过结合神经生成与符号知识及回复规划模块，提升长期对话质量。

提出的方法

采用模块化架构，为不同对话功能配置专用的回复生成器（RGs），包括知识检索、情感回应和观点分享。
在 TopicalChat 数据集上微调 GPT-2 模型，将来自 Wikipedia、Reddit 和 Alexa 知识图谱等外部知识源的信息生成自然、口语化的重述。
实现全局导航意图分类器和实体追踪器，以检测用户和机器人双方的议题转换，支持混合主导权控制。
引入回复优先级系统，使高优先级的 RG 在检测到话题变化时可插话，提升响应速度和相关性。
集成神经对话模块，以神经生成方式主动获取并共情回应用户经历与情绪，维持个人化、富有情感的对话。
应用符号约束和回退机制，确保在长对话或对抗性交互中保持一致性和安全性。

实验结果

研究问题

RQ1如何有效结合神经生成与符号组件，以支持富有情感、长篇幅、混合主导权的对话？
RQ2专用回复生成器在开放域对话系统中对维持用户参与度和对话深度起到何种作用？
RQ3在不依赖模板的情况下，神经生成模型在多大程度上可支持共情、相互的情感交流？
RQ4用户主导对开放域社交聊天机器人的对话质量与时长有何影响？哪些设计模式最能支持它？
RQ5在真实世界社交聊天机器人互动中，高用户评分的关键预测因素是什么？不同回复生成器在其中起到何种贡献？

主要发现

Chirpy Cardinal 实现了 2 分 16 秒的中位对话时长，第 90 百分位数时长超过 12 分钟，表明用户参与度持久。
系统获得平均用户评分为 3.6/5.0，表明在真实部署中用户满意度较高。
专注于一般性对话的回复生成器（如冠状病毒、确认、电影、类别）与更高用户评分存在统计显著的正相关。
回退和攻击性回复生成器与评分呈负相关，表明其使用可能暗示对话质量差或存在对抗行为。
神经对话模块和观点分享模块促进了情感亲密感，用户更可能在机器人分享自身感受后透露个人经历。
尽管在处理长或意外用户语句时存在挑战，但通过在有趣话题上提出开放式问题，该系统有效支持了用户主导，且未引发决策疲劳。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。