[论文解读] A Deep Reinforcement Learning Chatbot
MILABOT 是一个深度强化学习对话系统,作为生成与检索模型的集合体构建,使用众包和真实用户数据训练,并通过真实用户评估显示出强烈互动性和性能。
We present MILABOT: a deep reinforcement learning chatbot developed by the Montreal Institute for Learning Algorithms (MILA) for the Amazon Alexa Prize competition. MILABOT is capable of conversing with humans on popular small talk topics through both speech and text. The system consists of an ensemble of natural language generation and retrieval models, including template-based models, bag-of-words models, sequence-to-sequence neural network and latent variable neural network models. By applying reinforcement learning to crowdsourced data and real-world user interactions, the system has been trained to select an appropriate response from the models in its ensemble. The system has been evaluated through A/B testing with real-world users, where it performed significantly better than many competing systems. Due to its machine learning architecture, the system is likely to improve with additional data.
研究动机与目标
- 开发一个社交机器人,能够通过端到端、基于机器学习的架构,在热门话题上进行开放领域对话。
- 构建一个多样化的回应模型集合(生成、检索、模板、问答)以生成候选回应。
- 基于用户交互应用强化学习,从集合中选择合适的回应。
- 在 Amazon Alexa Prize 设置中使用真实用户评估系统的参与度和质量相对于竞争系统的表现。
- 证明在更多数据下的可扩展性及潜在改进。
提出的方法
- 构建一个包含模板、检索和神经生成模型在内的22个回应模型的集合。
- 使用三步式对话管理器:生成候选、应用优先级规则、再用模型选择策略进行选择。
- 使用众包标签和真实用户互动,将回应选择策略训练为以马尔可夫决策过程(MDP)为框架的强化学习。
- 结合 VHRED、SkipThought、Dual Encoders 和基于 GRU 的生成模型等多种检索与生成技术。
- 在 Alexa Prize 比赛期间对真实用户评估多种基于 RL 的策略学习方法。
- 利用大规模众包(约 $200,000$ 标签)和广泛的 GPU 基础设施来训练和运行系统。
实验结果
研究问题
- RQ1如何编排一个多样回应模型的集合,以产生连贯、吸引人的开放领域对话?
- RQ2强化学习是否能够有效优化回应的选择,以在现实互动中最大化长期用户满意度?
- RQ3在 A/B 测试中,使用真实用户数据和众包标签对社交聊天机器人的性能有何影响?
- RQ4在 Alexa Prize 半决赛中,MILABOT 相比竞争系统在用户满意度和对话长度方面有何差异?
主要发现
- 半决赛表现最好的系统在1-5分制上的平均用户评分为3.15。
- 最佳系统的对话轮次平均为14.5-16.0轮,超过竞争团队。
- 使用真实用户的 A/B 测试显示相比许多竞争系统有显著改进。
- 大多数组件是可学习的,表明系统在增加数据后可以改进。
- 该方法在最少手工设计状态和规则的情况下实现了强烈的参与度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。