QUICK REVIEW

[論文レビュー] Towards a Human-like Open-Domain Chatbot

Daniel Adiwardana|arXiv (Cornell University)|Jan 27, 2020

Topic Modeling参考文献 56被引用数 267

ひとこと要約

Meenaは、公開対話からの40B語で訓練された2.6Bパラメータのエンドツーエンドのオープンドメインチャットボットで、SSA評価指標を導入し、困惑度（perplexity）と人間らしい行動との強い相関を示します。

ABSTRACT

We present Meena, a multi-turn open-domain chatbot trained end-to-end on data mined and filtered from public domain social media conversations. This 2.6B parameter neural network is simply trained to minimize perplexity of the next token. We also propose a human evaluation metric called Sensibleness and Specificity Average (SSA), which captures key elements of a human-like multi-turn conversation. Our experiments show strong correlation between perplexity and SSA. The fact that the best perplexity end-to-end trained Meena scores high on SSA (72% on multi-turn evaluation) suggests that a human-level SSA of 86% is potentially within reach if we can better optimize perplexity. Additionally, the full version of Meena (with a filtering mechanism and tuned decoding) scores 79% SSA, 23% higher in absolute SSA than the existing chatbots we evaluated.

研究の動機と目的

マルチターン対話において、人間らしい分別と特異性を達成するよう、オープンドメインチャットボットを動機づける。
チャットボットを評価するための、シンプルでスケーラブルな人間による評価SSA指標を提案する。
大規模なエンドツーエンドモデルにおける低困惑度が高いSSAと相関することを示す。
完全に調整されたデコード/フィルター版が、従来のチャットボットより高いSSAを達成することを示す。
大規模なエンドツーエンドチャットボットの実践的な訓練とデコード設定を提供する。

提案手法

40B語のフィルタリングされた公開ソーシャルメディア会話を用いて、Evolved Transformer アーキテクチャを用いた seq2seq モデルを訓練する。
入力には最大7ターンのコンテキストウィンドを使用し、次の応答を予測する。
テキストをSentencePieceによる8K BPEサブワードで表現し、341GBのデータセットを扱う。
TPU-v3ポッドでAdafactorを用いて30日間最適化し、約10Tトークンを観察する。
sample-and-rankでデコード: 温度TでN候補をサンプルし、確率が最も高い候補を選ぶ。
SSA metric (Sensibleness and Specificity Average) を用いて、静的および対話的な人間評価で評価する。

実験結果

リサーチクエスチョン

RQ1低い perplexity で、エンドツーエンドの大規模ニューラルモデルが人間らしい多ターンのオープンドメイン対話を達成できるか？
RQ2単純な perplexity ベースの目的が、人間の sensibleness（分別）と specificity（特異性）の判断と相関するか？
RQ3サンプルしてランク付け戦略によるデコードは、スケールで多様で高品質な応答を生むか？
RQ4SSA などの指標で、Meena が既存のチャットボット（Cleverbot、Mitsuku、XiaoIce、DialoGPT）とどう比較されるか？

主な発見

Meenaはテスト困惑度10.2を達成し、最良のエンドツーエンドモデルで72% SSA、フィルタリング/デコードのアップグレードで79% SSAを達成。
SSAは perplexity と強い相関を示す（static SSA R2≈0.94、interactive SSA も同様に高い）。
SSAの人間上限は約86%、Meenaは人間らしい性能に近づいているがまだ人間レベルには及ばない。
フィルタリング/デコードを備えた完全なMeenaは79% SSAを得ており、評価対象の既存チャットボットより絶対SSAで23%高い。
困惑度ベースの最適化は、オープンドメインタスクにおいて、手作業で構成された複数コンポーネントのチャットボットより、sensiblenessとspecificityで優れる可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。