QUICK REVIEW

[論文レビュー] Topic-based Evaluation for Conversational Bots

Fenfei Guo, Angeliki Metallinou|arXiv (Cornell University)|Jan 11, 2018

Advanced Text Analysis Techniques参考文献 18被引用数 41

ひとこと要約

本論文は、非タスク指向の対話ボットを評価するトピックベースの指標を導入し、トピック深度・広がり・キーワードカバレッジを測定するトピック分類器（DANとADAN）を開発し、それらをライブのAlexa Prizeデータと人間の判断に対して検証する。

ABSTRACT

Dialog evaluation is a challenging problem, especially for non task-oriented dialogs where conversational success is not well-defined. We propose to evaluate dialog quality using topic-based metrics that describe the ability of a conversational bot to sustain coherent and engaging conversations on a topic, and the diversity of topics that a bot can handle. To detect conversation topics per utterance, we adopt Deep Average Networks (DAN) and train a topic classifier on a variety of question and query data categorized into multiple topics. We propose a novel extension to DAN by adding a topic-word attention table that allows the system to jointly capture topic keywords in an utterance and perform topic classification. We compare our proposed topic based metrics with the ratings provided by users and show that our metrics both correlate with and complement human judgment. Our analysis is performed on tens of thousands of real human-bot dialogs from the Alexa Prize competition and highlights user expectations for conversational bots.

研究の動機と目的

非タスク指向ボットの会話品質を評価するトピックベースの指標を提案する（トピックの広がりと深さ）。
発話トピックとトピック固有のキーワードを検出する教師ありトピック分類器を開発する。
DANをトピック単語のアテンション機構で拡張し、解釈可能なキーワード検出を可能にする。
Alexa Prizeデータに対する自動指標を実世界のユーザー評価と人間の判断に対して検証する。

提案手法

発話の高速なトピック分類器としてDeep Averaging Networks (DAN) を用いる。
発話ごとに顕著なトピックキーワードを特定するため、トピック単語アテンション表を備えたAttentional Deep Averaging Network (ADAN) を導入する。
内部Questionデータ（55トピック）とAlexa知識クエリデータ（26トピック）で分類器を訓練する。
トピックベースの評価指標を定義する：トピック固有のターン、トピック一貫性のあるサブ対話、トピック深度、およびトピック広がり（粗く・細かく分割）。
堅牢性のため、両方のデータソースで訓練されたDANモデルをアンサンブルし、発話ごとにエントロピーが低い予測を選択する。

実験結果

リサーチクエスチョン

RQ1トピックベースの指標（深さ・広がり・キーワードカバレッジ）は、非タスク指向ボットの会話品質を信頼性高く反映できるか？
RQ2トピック分類器（DAN/ADAN）は、ユーザーの発話におけるトピックと意味のあるキーワードを正確に識別できるか？
RQ3トピックベースの指標はライブのユーザー評価と相関し、人間の判断を補完するか？
RQ4トピックベースの分析は、対話ボットに対するユーザーの期待についてどんな洞察を提供するか？

主な発見

トピック深度はユーザー満足度と相関し、レスポンスエラー率（RER）の予測力に近づく。
粗いトピック広がりはユーザー評価と相関し、多様なトピックが知覚品質を向上させることを示す；トピック頻度だけでは予測力が低い。
ADANによるトピック固有のキーワードカバレッジと検出は、ユーザーの意図とトピックに関する意味のある、解釈可能な手掛かりを明らかにする。
DANは内部データとAlexaデータの双方で高いトピック分類精度を達成し、ADANは解釈可能なキーワード検出を提供する。
トピックベースの指標は、ライブ評価だけでは十分に捉えきれない反復性とトピック多様性に関する情報を捉える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。