Skip to main content
QUICK REVIEW

[論文レビュー] BARTScore: Evaluating Generated Text as Text Generation

Weizhe Yuan, Graham Neubig|arXiv (Cornell University)|Jun 22, 2021
Topic Modeling参考文献 67被引用数 318
ひとこと要約

tldr: BARTScore は、事前学習済みの seq2seq モデル(BART)を用いて生成テキストの評価をテキスト生成タスクとして扱い、複数の方向性と視点にわたる条件付き生成確率を用いて仮説をスコア付けする。多様な Settings で既存の指標を上回ることが多い。

ABSTRACT

A wide variety of NLP applications, such as machine translation, summarization, and dialog, involve text generation. One major challenge for these applications is how to evaluate whether such generated texts are actually fluent, accurate, or effective. In this work, we conceptualize the evaluation of generated text as a text generation problem, modeled using pre-trained sequence-to-sequence models. The general idea is that models trained to convert the generated text to/from a reference output or the source text will achieve higher scores when the generated text is better. We operationalize this idea using BART, an encoder-decoder based pre-trained model, and propose a metric BARTScore with a number of variants that can be flexibly applied in an unsupervised fashion to evaluation of text from different perspectives (e.g. informativeness, fluency, or factuality). BARTScore is conceptually simple and empirically effective. It can outperform existing top-scoring metrics in 16 of 22 test settings, covering evaluation of 16 datasets (e.g., machine translation, text summarization) and 7 different perspectives (e.g., informativeness, factuality). Code to calculate BARTScore is available at https://github.com/neulab/BARTScore, and we have released an interactive leaderboard for meta-evaluation at http://explainaboard.nlpedia.ai/leaderboard/task-meval/ on the ExplainaBoard platform, which allows us to interactively understand the strengths, weaknesses, and complementarity of each metric.

研究の動機と目的

  • 事前学習の目的とより整合させるために、生成確率によって生成テキストの評価を動機づける。
  • 情報量、事実性、流暢さなど、複数の評価観点を評価するための BARTScore の派生版を開発する。
  • BARTScore が MT、要約、データからテキストへのデータセット全体で人間の判断と強い相関を示すことを示す。
  • プロンプトとタスク固有のファインチューニングが指標の性能に与える影響を調査する。

提案手法

  • BARTScore を、ソースまたは参照テキストが与えられたターゲットテキストの加重対数尤度として定義する: BARTScore = sum_t w_t log p(y_t | y_<t, x, theta).

実験結果

リサーチクエスチョン

  • RQ1BARTScore は MT、要約、データ-to-text タスク全体で人間の判断と信頼できる相関を示すことができるか?
  • RQ2プロンプトとタスク指向のファインチューニングは BARTScore の人間判断との相関を改善するか?
  • RQ3情報量、事実性、一貫性、流暢さといった視点で、既存の指標と比べて BARTScore はどのように性能を発揮するか?
  • RQ4高品質と低品質の生成テキストを評価する際の BARTScore の頑健性とバイアス特性はどうか?

主な発見

  • タスク適合のファインチューニングを伴う BARTScore の派生版は、いくつかの言語ペアやタスクで相関を著しく向上させる。
  • プロンプトを追加すること(例えば “Such as” のような語句)により MT の相関を高めることができ、プロンプト補助評価の価値を示している。
  • CNNDM でのファインチューニングは要約の性能を高め、データ-to-text タスクでも一定程度向上させる一方、パラフレーズに焦点を当てたファインチューニングは一部のケースで悪影響を与える可能性がある。
  • プロンプトアンサンブルは一貫して意味的重なりベースの視点(情報量、ピラミッド/カバレッジ)を改善するが、事実性には影響が様々である。
  • BARTScore は参照長さや高品質な出力に対して概ね頑健だが、特定の要約データセットでは抽出型システムの識別には効果が低い。)

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。