QUICK REVIEW

[論文レビュー] Unifying Human and Statistical Evaluation for Natural Language Generation

Tatsunori Hashimoto, Hugh Zhang|arXiv (Cornell University)|Apr 4, 2019

Topic Modeling参考文献 38被引用数 41

ひとこと要約

HUSEを紹介する。人間の判断とモデル確率を結合してNLGの品質と多様性を同時に評価する統一的評価フレームワークであり、要約、物語生成、対話、言語モデル化といったタスクにおけるトレードオフを分析する。

ABSTRACT

How can we measure whether a natural language generation system produces both high quality and diverse outputs? Human evaluation captures quality but not diversity, as it does not catch models that simply plagiarize from the training set. On the other hand, statistical evaluation (i.e., perplexity) captures diversity but not quality, as models that occasionally emit low quality samples would be insufficiently penalized. In this paper, we propose a unified framework which evaluates both diversity and quality, based on the optimal error rate of predicting whether a sentence is human- or machine-generated. We demonstrate that this error rate can be efficiently estimated by combining human and statistical evaluation, using an evaluation metric which we call HUSE. On summarization and chit-chat dialogue, we show that (i) HUSE detects diversity defects which fool pure human evaluation and that (ii) techniques such as annealing for improving quality actually decrease HUSE due to decreased diversity.

研究の動機と目的

NLGにおいて品質と多様性の両方を評価する必要性を、人間評価や困惑度だけに依存するのではなく動機づける。
モデル分布と参照分布の最適な識別子が統一評価指標を決定する理論的に根拠づけられたフレームワークを提案する。
この指標を実践的に推定する方法として、人間 judging とモデル確率を組み合わせたHUSEを示す。
HUSEを品質（HUSE-Q）と多様性（HUSE-D）に分解してトレードオフを分析する。
言語モデリング、物語生成、会話（ chit-chat ）、要約タスクでHUSEを経験的に検証し、アニーリングやその他の生成技術を検討する。

提案手法

参照分布とモデル分布の間の識別誤差の2倍としてL*を定義し、それを総変動距離と結びつける。
最適な二次元十分統計量は (p_ref(y|x), p_model(y|x)) であることを示し、それを用いて最適な識別子を特徴づける。
phi_huse(x,y) = [log p_model(y|x)/len(y), HJ(x,y)] を導入する。ここで HJ は p_ref(y|x) の典型性推定をクラウドワーカー由来で表す。
リファレンスとモデルから抽出したサンプルに対して16-NN分類器で識別子誤差を推定し、L(phi_huse)の実用的計算を可能にする。
HUSEをHUSE-Q（人間判断ベース）とHUSE-D（多様性成分）に分解し、それらの相互作用を分析する。

実験結果

リサーチクエスチョン

RQ1従来の評価指標を超えて、NLGの品質と多様性をどのように同時に定量化できるか？
RQ2モデル確率とクラウドソースの典型性判断を含む2次元統計量を用いて最適な識別子の誤差を近似できるか？
RQ3温度アニーリングなどの品質向上技術は多様性を損なうのか、あるいはその逆は？
RQ4HUSE、HUSE-Q、HUSE-Dは entropy の異なるタスク（言語モデリング、対話、要約、物語）でどのように振る舞うか？
RQ5品質対多様性の観点で、HUSEが人間評価だけでは明らかにできないモデルの失敗についてどんな洞察を提供するか？

主な発見

HUSEは人間評価だけでは見逃されがちな多様性の欠陥を検出する。
サンプル品質を向上させるためのアニーリングが多様性を低下させ、品質と多様性のトレードオフを明らかにする。
HUSEは言語モデリング、要約、物語生成、対話などのタスク間で品質と多様性の問題を区別できる二次元評価を提供する。
人間判断（HJ）は参照分布の尤度と強く相関し、参照確率の実用的推定を可能にする。
このフレームワークはサンプルレベルでのモデルの失敗モード（品質対多様性）の解釈可能な診断と可視化をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。