[論文レビュー] Towards a Human-like Open-Domain Chatbot
Meenaは、公開対話からの40B語で訓練された2.6Bパラメータのエンドツーエンドのオープンドメインチャットボットで、SSA評価指標を導入し、困惑度(perplexity)と人間らしい行動との強い相関を示します。
We present Meena, a multi-turn open-domain chatbot trained end-to-end on data mined and filtered from public domain social media conversations. This 2.6B parameter neural network is simply trained to minimize perplexity of the next token. We also propose a human evaluation metric called Sensibleness and Specificity Average (SSA), which captures key elements of a human-like multi-turn conversation. Our experiments show strong correlation between perplexity and SSA. The fact that the best perplexity end-to-end trained Meena scores high on SSA (72% on multi-turn evaluation) suggests that a human-level SSA of 86% is potentially within reach if we can better optimize perplexity. Additionally, the full version of Meena (with a filtering mechanism and tuned decoding) scores 79% SSA, 23% higher in absolute SSA than the existing chatbots we evaluated.
研究の動機と目的
- マルチターン対話において、人間らしい分別と特異性を達成するよう、オープンドメインチャットボットを動機づける。
- チャットボットを評価するための、シンプルでスケーラブルな人間による評価SSA指標を提案する。
- 大規模なエンドツーエンドモデルにおける低困惑度が高いSSAと相関することを示す。
- 完全に調整されたデコード/フィルター版が、従来のチャットボットより高いSSAを達成することを示す。
- 大規模なエンドツーエンドチャットボットの実践的な訓練とデコード設定を提供する。
提案手法
- 40B語のフィルタリングされた公開ソーシャルメディア会話を用いて、Evolved Transformer アーキテクチャを用いた seq2seq モデルを訓練する。
- 入力には最大7ターンのコンテキストウィンドを使用し、次の応答を予測する。
- テキストをSentencePieceによる8K BPEサブワードで表現し、341GBのデータセットを扱う。
- TPU-v3ポッドでAdafactorを用いて30日間最適化し、約10Tトークンを観察する。
- sample-and-rankでデコード: 温度TでN候補をサンプルし、確率が最も高い候補を選ぶ。
- SSA metric (Sensibleness and Specificity Average) を用いて、静的および対話的な人間評価で評価する。
実験結果
リサーチクエスチョン
- RQ1低い perplexity で、エンドツーエンドの大規模ニューラルモデルが人間らしい多ターンのオープンドメイン対話を達成できるか?
- RQ2単純な perplexity ベースの目的が、人間の sensibleness(分別)と specificity(特異性)の判断と相関するか?
- RQ3サンプルしてランク付け戦略によるデコードは、スケールで多様で高品質な応答を生むか?
- RQ4SSA などの指標で、Meena が既存のチャットボット(Cleverbot、Mitsuku、XiaoIce、DialoGPT)とどう比較されるか?
主な発見
- Meenaはテスト困惑度10.2を達成し、最良のエンドツーエンドモデルで72% SSA、フィルタリング/デコードのアップグレードで79% SSAを達成。
- SSAは perplexity と強い相関を示す(static SSA R2≈0.94、interactive SSA も同様に高い)。
- SSAの人間上限は約86%、Meenaは人間らしい性能に近づいているがまだ人間レベルには及ばない。
- フィルタリング/デコードを備えた完全なMeenaは79% SSAを得ており、評価対象の既存チャットボットより絶対SSAで23%高い。
- 困惑度ベースの最適化は、オープンドメインタスクにおいて、手作業で構成された複数コンポーネントのチャットボットより、sensiblenessとspecificityで優れる可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。