QUICK REVIEW

[論文レビュー] Approximating Interactive Human Evaluation with Self-Play for Open-Domain Dialog Systems

Asma Ghandeharioun, Judy Hanwen Shen|arXiv (Cornell University)|Jun 21, 2019

Topic Modeling参考文献 43被引用数 51

ひとこと要約

本論文は、心理学にインスパイアされた指標を用いた自己プレイフレームワークを提案し、オープンドメイン対話システムのインタラクティブな人間評価を近似することで、人間の判断と高い相関を達成している（r > 0.7, p < .05）。また、階層型対話モデルを感情と意味の蒸留で正則化し、データとプラットフォームのオープン化を行っている。

ABSTRACT

Building an open-domain conversational agent is a challenging problem. Current evaluation methods, mostly post-hoc judgments of static conversation, do not capture conversation quality in a realistic interactive context. In this paper, we investigate interactive human evaluation and provide evidence for its necessity; we then introduce a novel, model-agnostic, and dataset-agnostic method to approximate it. In particular, we propose a self-play scenario where the dialog system talks to itself and we calculate a combination of proxies such as sentiment and semantic coherence on the conversation trajectory. We show that this metric is capable of capturing the human-rated quality of a dialog model better than any automated metric known to-date, achieving a significant Pearson correlation (r>.7, p

研究の動機と目的

オープンドメイドIALOGシステムの多ターンでのインタラクティブ評価が重要であると主張する。
心理学に基づく指標を用いて、インタラクティブな人間評価を近似する自己プレイフレームワークを導入する。
自己プレイで計算されたハイブリッド指標が人間の判断と高く相関することを示す（r > 0.7）。
感情と意味の知識蒸留を通じて階層型対話モデルを正則化し、インタラクティブ性能を向上させる。
評価プラットフォームとRedditベースのデータセットをオープンソース化し、再現性を促進する。

提案手法

心理学に着想を得た感情、意味、エンゲージメント指標を定義（感情の整合性、Infersentベースの意味的類似性、語彙・整合性指標、質問によるエンゲージメント）。
対話の相互評価データを用いて、これらの指標を人間の判断へマッピングする関数を訓練する。
自己プレイを適用し、対話モデルに10ターンの軌跡を生成させ、同じ指標を計算し、学習済みマッピングを用いて品質を予測する。
HRED/VHRED/VHCR のトップレベルのContext RNNをEI蒸留で正則化し、発話中の感情と意味をエンコードする。
CornellとRedditデータセットを用いて、インタラクティブ評価と静的指標でベースラインとEIバリアントを比較する。
コード・データ・評価プラットフォームをオープンソース化する。

実験結果

リサーチクエスチョン

RQ1インタラクティブな多ターン評価は、自己プレイフレームワークで効果的に近似できるか。
RQ2心理学にインスパイアされた指標（感情、意味、エンゲージメント）は、対話品質の人間 Judgmentを予測するか。
RQ3感情と意味の知識蒸留が階層型対話モデルのインタラクティブ評価性能を改善するか。
RQ4自己プレイベースの指標は、従来の自動指標と比較して人間 Judgment との相関においてどうなるか。

主な発見

自己プレイベースのハイブリッド指標 M_H は、モデル間で人間の評価と強い相関を示す（r > .7, p < .05）。
EI正則化は、CornellおよびRedditデータ双方でHRED、VHRED、VHCRのインタラクティブ評価結果を改善する。
静的な自動指標（パープレキシティ、KL、埋め込み距離）は、人間判断との相関が弱いまたは一貫性がない。
EIモデルは、インタラクティブ環境および自己プレイの両方で、対話が長く、よりエンゲージングで、意味的に一貫した会話を生み出す。
Redditベースのトレーニングデータは、Cornellデータよりもインタラクティブ評価性能が高い。
独立した静的な人間評価は高い分散と低いアノテーター間合意を示し、インタラクティブ評価の価値を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。