Skip to main content
QUICK REVIEW

[论文解读] Towards a Human-like Open-Domain Chatbot

Daniel Adiwardana|arXiv (Cornell University)|Jan 27, 2020
Topic Modeling参考文献 56被引用 267
一句话总结

Meena 是一个 2.6B 参数的端到端开放域聊天机器人,基于来自公开对话的 400 亿词训练,提出 SSA 评估指标并显示困惑度与类人行为之间的强相关性。

ABSTRACT

We present Meena, a multi-turn open-domain chatbot trained end-to-end on data mined and filtered from public domain social media conversations. This 2.6B parameter neural network is simply trained to minimize perplexity of the next token. We also propose a human evaluation metric called Sensibleness and Specificity Average (SSA), which captures key elements of a human-like multi-turn conversation. Our experiments show strong correlation between perplexity and SSA. The fact that the best perplexity end-to-end trained Meena scores high on SSA (72% on multi-turn evaluation) suggests that a human-level SSA of 86% is potentially within reach if we can better optimize perplexity. Additionally, the full version of Meena (with a filtering mechanism and tuned decoding) scores 79% SSA, 23% higher in absolute SSA than the existing chatbots we evaluated.

研究动机与目标

  • 在多轮对话中激励开放域聊天机器人实现人类般的理性与特异性。
  • 提出一个简单、可扩展的人工评估 SSA 指标来评估聊天机器人。
  • 证明大规模端到端模型的低困惑度与更高的 SSA 存在相关性。
  • 显示经过完全调整的解码/过滤版本在 SSA 上比之前的聊天机器人达到更高的 SSA。
  • 为大规模端到端聊天机器人提供一个实用的训练与解码设置。

提出的方法

  • 用 Evolved Transformer 架构在 40B 字的经筛选公开社交媒体对话上训练一个 seq2seq 模型。
  • 使用最多 7 轮的上下文窗口作为输入并预测下一个回复。
  • 用 SentencePiece 将文本表示为 8K BPE 子词,数据集为 341GB。
  • 在 TPU-v3 集群上使用 Adafactor 进行 30 天的优化,观测约 10T 的 token。
  • 采用 sample-and-rank 的解码:在温度 T 下抽取 N 个候选并选择概率最高的候选。
  • 使用 SSA 指标(Sensibleness and Specificity Average)通过静态和交互式人工评估进行评估。

实验结果

研究问题

  • RQ1一个端到端的大规模神经模型能否在低困惑度下实现人类般的多轮开放域对话?
  • RQ2一个简单的困惑度为基础的目标函数是否与人类对理性与特异性的判断相关?
  • RQ3使用 sample-and-rank 的解码策略是否在大规模场景中产生多样且高质量的回复?
  • RQ4Meena 与现有聊天机器人(Cleverbot、Mitsuku、XiaoIce、DialoGPT)在 SSA 及其他指标上有何比较?

主要发现

  • Meena 的测试困惑度为 10.2,最佳端到端模型达到 72% 的 SSA,经过过滤/解码升级后达到 79% SSA。
  • SSA 与困惑度之间呈现强相关性(静态 SSA R2≈0.94,交互式 SSA 同样很高)。
  • 人类上限的 SSA 大约为 86%,Meena 接近人类水平但仍低于人类水平。
  • 完整的 Meena(带过滤/解码)得分 79% SSA,相比经评估的现有聊天机器人在绝对 SSA 上高出 23%。
  • 基于困惑度的优化在开放域任务上的理性与特异性方面可超过手工设计的多组件聊天机器人。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。