Skip to main content
QUICK REVIEW

[論文レビュー] Relevance of Unsupervised Metrics in Task-Oriented Dialogue for Evaluating Natural Language Generation

Shikhar Sharma, Layla El Asri|arXiv (Cornell University)|Jun 29, 2017
Topic Modeling参考文献 19被引用数 183
ひとこと要約

本論文は、非監督の自動評価指標(BLEU、METEOR、ROUGE、埋め込みベースの指標)が、タスク指向ダイアログNLGにおける人間の評価とどの程度相関するかを経験的に評価し、METEOR が一般的に最大の整合性を示し、複数の参照が相関を改善することを示す。DSTC2とRestaurantsというデータセットを、いくつかのNLGモデルとともに用いている。

ABSTRACT

Automated metrics such as BLEU are widely used in the machine translation literature. They have also been used recently in the dialogue community for evaluating dialogue response generation. However, previous work in dialogue response generation has shown that these metrics do not correlate strongly with human judgment in the non task-oriented dialogue setting. Task-oriented dialogue responses are expressed on narrower domains and exhibit lower diversity. It is thus reasonable to think that these automated metrics would correlate well with human judgment in the task-oriented setting where the generation task consists of translating dialogue acts into a sentence. We conduct an empirical study to confirm whether this is the case. Our findings indicate that these automated metrics have stronger correlation with human judgments in the task-oriented setting compared to what has been observed in the non task-oriented setting. We also observe that these metrics correlate even better for datasets which provide multiple ground truth reference sentences. In addition, we show that some of the currently available corpora for task-oriented language generation can be solved with simple models and advocate for more challenging datasets.

研究の動機と目的

  • タスク指向対話生成において、非監督の自動指標が人間の判断と相関するかを評価する。
  • 2つのタスク指向データセットにおいて、語彙重複指標と埋め込みベース指標を比較する。
  • モデルの複雑さとデータセットの特性が指標と人間の整合性にどのように影響するかを評価する。

提案手法

  • DSTC2とRestaurantsデータセットに対して、自動指標(BLEU、METEOR、ROUGE、Skip-Thought、埋め込み平均、ベクター極値、greedy/matching)と人間の判断との相関を調査・計算する。
  • 対話行為を自然言語へ翻訳するよう訓練した、複数のNLGモデル(Random、LSTM、delex-scLSTM、hierarchical-lex-delex-scLSTM)を実装・比較する。
  • 公正な比較のため、スロットエラー率ペナルティを用いたビーム探索デコードを使用して出力を生成する。

実験結果

リサーチクエスチョン

  • RQ1非タスク指向の設定と同様に、タスク指向ダイアログNLGにおいても非監督の自動指標が人間の判断と相関するか?
  • RQ2この領域で人間の評価と最もよく相関する自動指標はどれか?
  • RQ3複数の参照文が自動指標と人間の判断との相関を改善するか?
  • RQ4タスク指向NLGのベンチマークで高い指標スコアを達成するために、複雑なニューラルデコーディングアーキテクチャは必要か?
  • RQ5DSTC2 や Restaurants のようなタスク指向データセットは、現在のNLGモデルと指標にとって十分に難易度が高いか?

主な発見

  • タスク指向の設定では自動指標が人間の判断と正の相関を示すことが多いが、いくつかの非タスク指向の所見とは異なる。
  • METEOR は両データセットを通じて一貫して人間の評価と最も良く相関する。
  • 埋め込みベースの文類似度指標は、多くのモデルで語彙重複指標と同程度の相関を示す。
  • 複数の参照文(Restaurants のように)が自動指標と人間の判断との相関を高める。
  • 単純なモデル(例:ビーム探索付きLSTM)は高い自動指標スコアを達成し、これらのデータセットがより難易度が低い可能性を示唆しており、より大規模で複雑なベンチマークの必要性を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。