QUICK REVIEW

[論文レビュー] Towards Explainable and Controllable Open Domain Dialogue Generation with Dialogue Acts

Can Xu, Wei Wu|arXiv (Cornell University)|Jul 19, 2018

Topic Modeling参考文献 28被引用数 30

ひとこと要約

本稿では、説明可能性、制御可能性、ユーザー参加度を向上させるために、会話行動をポリシーとして用いる対話生成モデルを提案する。人間同士の会話データから会話行動選択と応答生成を共同で学習し、強化学習で最適化することで、機械同士および人間と機械の評価において、応答品質および会話長さの面で最先端の手法を顕著に上回る。

ABSTRACT

We study open domain dialogue generation with dialogue acts designed to explain how people engage in social chat. To imitate human behavior, we propose managing the flow of human-machine interactions with the dialogue acts as policies. The policies and response generation are jointly learned from human-human conversations, and the former is further optimized with a reinforcement learning approach. With the dialogue acts, we achieve significant improvement over state-of-the-art methods on response quality for given contexts and dialogue length in both machine-machine simulation and human-machine conversation.

研究の動機と目的

人間がどのようにソーシャルチャットを行うかを理解し、それをオープンドメイン対話システムにモデル化すること。
特に文脈の維持と切り替え、質問の仕方のパターンを表現する会話行動を設計すること。
教師あり学習と強化学習を用いた、会話行動選択と応答生成の共同学習フレームワークを開発すること。
会話行動ポリシーを用いて、制御可能で説明可能かつ多様な応答を可能にすることで、ユーザー参加度を向上させること。
自動指標および人間による評価を通じて、モデルの優位性を実証的に検証すること。

提案手法

本モデルは、文脈維持（CM.S, CM.Q, CM.A）、文脈切り替え（CS.S, CS.Q, CS.A）、およびその他の行動（O）の6つの会話行動を用いて、人間の会話行動を表現する。
会話行動選択と応答生成は、会話行動でアノテートされた大規模な人間同士の会話データを用いた教師あり学習によって共同で訓練される。
会話行動ポリシーは、長期的な会話長さと参加度を最大化するために強化学習でさらに最適化される。
モデルはエンコーダ・デコーダ構造とアテンションを用い、会話行動が文脈に条件付けられ、応答生成をガイドする。
強化学習は、会話長さと関連性に基づく報酬信号を用いて適用され、文脈切り替えや質問の仕方を促進することで、継続的な対話を促進する。
エンジニアが特定の会話行動（例：質問を投げかける、トピックを切り替える）から応答を選択可能にすることで、制御性を実現する。

実験結果

リサーチクエスチョン

RQ1ソーシャルチャットにおける人間の行動、特に文脈の維持と切り替えを表現するための会話行動は、どのように設計できるか？
RQ2会話行動が、オープンドメイン対話生成における応答品質および参加度を向上させる有効なポリシーとして機能できるか？
RQ3会話行動選択と応答生成の共同学習は、エンドツーエンドモデルよりも優れたパフォーマンスをもたらすか？
RQ4強化学習により、会話行動ポリシーをさらに最適化することで、長期的な会話長さとユーザー参加度を向上させられるか？
RQ5会話行動は、オープンドメインチャットボットにおける制御性と説明可能性をどの程度向上させられるか？

主な発見

提案されたモデル、RL-DAGMは、機械同士のシミュレーションおよび人間と機械の会話において、ベースラインを顕著に上回り、統計的に有意な改善（p < 0.01）を示した。
機械同士のシミュレーションでは、RL-DAGMは平均8.18ターンの会話長さを達成したのに対し、文脈切り替えのない会話では4.78ターンにとどまり、文脈切り替えの重要性が浮き彫りになった。
人間と機械の会話においては、RL-DAGMは1回以上の文脈切り替えを含む会話が48.1％に達したのに対し、SL-DAGMでは38.1％であった。これは、動的なトピックの変更によって参加度が向上していることを示している。
機械同士のシミュレーションでは32.4％の質問の使用率を示し、人間と機械の会話では22.3％に増加した。これは、会話を継続するために質問を効果的に活用していることを示している。
RL-DAGMが生成した会話は、関連性と多様性の点で高く評価され、人間の評価者からも最先端のモデルの応答よりもより魅力的であると感じられた。
強化学習部により、モデルの文脈切り替えや質問の発話を能動的に行う能力が向上し、わずかなターン単位の関連性の低下を除けば、より長く自然な会話を実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。