Skip to main content
QUICK REVIEW

[論文レビュー] RUBER: An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems

Chongyang Tao, Lili Mou|arXiv (Cornell University)|Jan 11, 2017
Topic Modeling被引用数 118
ひとこと要約

RUBERは、人間の満足度ラベルを用いず、負サンプリングで訓練された、グラウンドトゥルースに基づく埋め込み類似度(参照あり)とクエリ応答関連性モデル(参照なし)を組み合わせて、オープンドメイン対話の応答を自動評価します。

ABSTRACT

Open-domain human-computer conversation has been attracting increasing attention over the past few years. However, there does not exist a standard automatic evaluation metric for open-domain dialog systems; researchers usually resort to human annotation for model evaluation, which is time- and labor-intensive. In this paper, we propose RUBER, a Referenced metric and Unreferenced metric Blended Evaluation Routine, which evaluates a reply by taking into consideration both a groundtruth reply and a query (previous user-issued utterance). Our metric is learnable, but its training does not require labels of human satisfaction. Hence, RUBER is flexible and extensible to different datasets and languages. Experiments on both retrieval and generative dialog systems show that RUBER has a high correlation with human annotation.

研究の動機と目的

  • オープンドメイン対話システムの評価が高コストな人間の注釈に依存するため、自動評価を動機づける。
  • グラウンドトゥルースの応答とそれに対するクエリを両方活用して応答品質を評価するハイブリッド指標を提案する。
  • 2つの構成要素を開発する:参照付き埋め込みベースのスコアラーと、負サンプリングで訓練された参照なしニューラルスコアラー。
  • RUBERが人間の判断とよく相関し、データセットや言語を越えて転用可能であることを示す。

提案手法

  • 参照付き指標 s_R は、 groundtruth と生成応答の平均化された語彙埋め込み間のコサイン類似度を算出する。
  • 参照なし指標 s_U は、クエリ-応答の関連性を評価する Bi-GRU ベースのニューラルネットワークを用い、負サンプリングとマージンベースの損失で訓練する。
  • s_U のニューラルネットワークは、クエリと応答の埋め込みを連結し、二次特徴 q^T M r を含み、シグモイド型 MLP で制限付きスコアを出力する。
  • 負サンプリングは、グラウンドトゥルースのクエリ-応答ペアとランダムに選択されたネガティブ応答を用いて、マージン Δ でモデルを訓練する。
  • ハイブリッドな RUBER は、正規化された s_R と s_U を単純なヒューリスティクス(min, max, 幾何平均, 算術平均)で結合して最終スコアを生成する。

実験結果

リサーチクエスチョン

  • RQ1オープンドメイン対話に対するゼロショットの無監督評価指標は、人間の判断と一致するのか?
  • RQ2グラウンドトゥルースの参照とクエリ-応答の関連性の両方を取り入れることで、単一指標アプローチより評価信頼性が向上するのか?
  • RQ3RUBERはラベル付き評価データなしで、データセットと言語を超えてどの程度転移できるのか?
  • RQ4ネガティブサンプリングは、対話評価における参照なしスコアを学ぶ効果的な訓練戦略となるのか?

主な発見

  • Ruberは、オープンドメイン対話においてBLEUやROUGEといった従来の指標より人間の判断とのPearsonおよびSpearman相関が高い。
  • 参照なし s_U コンポーネント(ニューラースコア)は、しばしば参照付き s_R コンポーネントを上回り、クエリ-応答の意味論の価値を浮き彫りにする。
  • s_R と s_U のハイブリッド結合は、いずれかのコンポーネント単独より大きく優れており、ほぼ人間と同等の相関レベルに近づく。
  • Ruberは、異なる中国語データセット(Douban から Baidu Tieba)間で完全 retraining なしにある程度の転用性を示し、ベースラインより優れた性能を維持する。
  • すべてのコンポーネントは無監督または弱監督であり、手動でラベル付けされた満足度スコアに依存せず、柔軟性と適用性が向上している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。