Skip to main content
QUICK REVIEW

[論文レビュー] The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics

Sebastian Gehrmann, Tosin Adewumi|arXiv (Cornell University)|Feb 2, 2021
Topic Modeling参考文献 111被引用数 52
ひとこと要約

GEM は、生成、評価、指標に焦点を当てた、生涯性の多言語 NLG ベンチマークを導入。オープンデータカード、チャレンジセット、柔軟な評価フレームワークを備えています。

ABSTRACT

We introduce GEM, a living benchmark for natural language Generation (NLG), its Evaluation, and Metrics. Measuring progress in NLG relies on a constantly evolving ecosystem of automated metrics, datasets, and human evaluation standards. Due to this moving target, new models often still evaluate on divergent anglo-centric corpora with well-established, but flawed, metrics. This disconnect makes it challenging to identify the limitations of current models and opportunities for progress. Addressing this limitation, GEM provides an environment in which models can easily be applied to a wide set of tasks and in which evaluation strategies can be tested. Regular updates to the benchmark will help NLG research become more multilingual and evolve the challenge alongside models. This paper serves as the description of the data for which we are organizing a shared task at our ACL 2021 Workshop and to which we invite the entire NLG community to participate.

研究の動機と目的

  • モデルと評価基準とともに進化する、生きた多言語NLGベンチマークエコシステムを提供する。
  • 単一のスコアを超える、人間と自動指標を組み合わせた包括的な評価を可能にする。
  • データカードと標準化された評価プロトコルを用いて、責任あるデータ使用を促進する。
  • 言語と生成タスクを横断する多様で高品質なデータセットを取り入れ、英語中心の偏りを減らす。
  • 標的条件下でのモデルの挙動と一般化を検証するチャレンジセットを提供する。

提案手法

  • 要約、対話、データからテキストへ、簡略化を横断する18言語の初期11のNLGデータセットを選定する。
  • 資源制約下で有用性を最大化するため、提案、基準、投票の3段階のデータセット選択プロセスを採用する。
  • データセットの特徴、制限、および実世界での使用例を記録するNLG専用データカードを作成する。
  • i.i.d. テストセットを超えたモデル挙動を診断するため、入力の摂動、サブセット分割、時系列データのシフトなどのチャレンジセットタイプを開発する。
  • ベースライン(例:T5、BART、mT5、mBART)と自動指標拡張のためのフレームワークを備えた実験設定を概説する。
  • GEMを、解決済みのタスクをより難しいものに置き換えつつ、時間とともに新しい指標をサポートする生きたベンチマークとして位置づける。

実験結果

リサーチクエスチョン

  • RQ1従来の指標を超えたNLG評価の多面的な目標を、どうすれば生きた多言語ベンチマークでより適切に捉えることができるか。
  • RQ2どのデータセット構成、言語、タスクの組み合わせがNLGモデルの堅牢性と一般化性を最大化するか。
  • RQ3標準的なテストセットが見逃すモデルの限界とバイアスを、チャレンジセットはどのように露呈させることができるか。
  • RQ4再現性と責任ある利用を確保するために、データの文書化と人間評価の標準は何が必要か。
  • RQ5多様なNLGタスクと言語において、自動指標と人間の判断はどのように相関するか。

主な発見

  • GEMは、18言語と要約、対話、データからテキストへ、簡略化といったタスクを含む、多様な多言語データセット群を提案します。
  • データセットは制限と実世界の使用例を文書化するデータカードとともに編成され、責任ある研究を支援します。
  • チャレンジセットは数値の変動、属性順序、誤記、逆翻訳、入力構造などを検知するよう設計されています。
  • 分野の進化に合わせてデータ、テストセット、指標を更新できる生きたベンチマーク構造が述べられています。
  • ベースラインのモデリング手法(例:T5、BART、mT5、mBART)を評価の出発点として検討し、従来のn-gram重複(BLEU/ROUGE)を超える指標の拡張計画を掲げています。
  • 論文は、人間と自動指標の双方にわたる詳細な評価に焦点を当てることで、リーダーボード主導の最適化を避けることを強調します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。