Skip to main content
QUICK REVIEW

[論文レビュー] Evaluation of Text Generation: A Survey

Aslı Çelikyılmaz, Elizabeth Clark|arXiv (Cornell University)|Jun 26, 2020
Topic Modeling参考文献 295被引用数 194
ひとこと要約

本論文は自然言語生成の評価手法を概観し、人間中心、自動(未学習)、機械学習に基づく指標に分類し、要約と長文生成の例示評価を交えつつ、課題・タスク・今後の方向性を論じる。

ABSTRACT

The paper surveys evaluation methods of natural language generation (NLG) systems that have been developed in the last few years. We group NLG evaluation methods into three categories: (1) human-centric evaluation metrics, (2) automatic metrics that require no training, and (3) machine-learned metrics. For each category, we discuss the progress that has been made and the challenges still being faced, with a focus on the evaluation of recently proposed NLG tasks and neural NLG models. We then present two examples for task-specific NLG evaluations for automatic text summarization and long text generation, and conclude the paper by proposing future research directions.

研究の動機と目的

  • 特にニューラル生成システムに対して、NLGの頑健な評価の必要性を動機づける。
  • 評価手法を三つの系統に分類し、それらの進展と課題を分析する。
  • 自動要約と長文生成といったタスク固有の評価例を論じる。
  • 比較可能性と信頼性を向上させるためのNLG評価の今後の研究方向を提案する。

提案手法

  • 評価手法を三つのカテゴリーに分類する:人間中心、未学習の自動指標、機械学習指標の三カテゴリーに分類する。
  • ニューラルNLGシステムの文脈における各カテゴリの長所と限界をレビューする。
  • 流暢さ、妥当性、事実性、整合性といった共通の評価次元と、それらがどのように測定されるかを強調する。
  • 自動要約と長文生成のタスク固有の例を通じて評価の適用を示す。

実験結果

リサーチクエスチョン

  • RQ1NLGの主要な評価パラダイムは何で、信頼性・費用・スケーラビリティの観点でどう比較されるか。
  • RQ2ニューラルNLGシステムにおける人間中心・自動・機械学習ベースの評価指標で、どのような進展があったか。
  • RQ3最近のNLGタスクとモデルを評価する際の課題と今後の方向性は何か。

主な発見

  • 人間中心の評価は依然としてゴールドスタンダードだが、費用がかかり、研究間で一貫性がない。
  • 未学習の自動指標は普及しており、n-gram や分布的類似性などの表面的類似性に依存するが、人間の判断と一致しないことがある。
  • 機械学習ベースの指標は人間の判断を模倣できるが、訓練データを必要とし、偏りを避けるための慎重な調整が必要。
  • 本論文は自動要約と長文生成のタスク固有の評価の例を提供し、実用的な適用と現在の指標におけるギャップを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。