Skip to main content
QUICK REVIEW

[論文レビュー] GENIE: A Leaderboard for Human-in-the-Loop Evaluation of Text Generation.

Daniel Khashabi, Gabriel Stanovsky|arXiv (Cornell University)|Jan 17, 2021
Topic Modeling参考文献 62被引用数 47
ひとこと要約

GENIEは、翻訳、要約、常識的推論、機械理解を含む多様なテキスト生成タスクにおける標準的でスケーラブルな評価を可能にする、拡張可能な人間による評価リーダーボードを導入する。このリーダーボードは、流暢さ、正確性、簡潔さといった複数の品質軸にわたり、クラウドソーシングを活用した人間の評価を自動化し、自動評価指標と照らし合わせることで、テキスト生成の品質を標準化して評価する。

ABSTRACT

Leaderboards have eased model development for many NLP datasets by standardizing their evaluation and delegating it to an independent external repository. Their adoption, however, is so far limited to tasks that can be reliably evaluated in an automatic manner. This work introduces GENIE, an extensible human evaluation leaderboard, which brings the ease of leaderboards to text generation tasks. GENIE automatically posts leaderboard submissions to crowdsourcing platforms asking human annotators to evaluate them on various axes (e.g., correctness, conciseness, fluency) and compares their answers to various automatic metrics. We introduce several datasets in English to GENIE, representing four core challenges in text generation: machine translation, summarization, commonsense reasoning, and machine comprehension. We provide formal granular evaluation metrics and identify areas for future research. We make GENIE publicly available and hope that it will spur progress in language generation models as well as their automatic and manual evaluation.

研究の動機と目的

  • 従来のリーダーボードでは自動評価指標に依存するため、テキスト生成タスクにおける標準的でスケーラブルな人間による評価が不足している問題に対処すること。
  • クラウドソーシングプラットフォームへの自動送信により、多様なテキスト生成課題における一貫性があり再現可能な人間による評価を可能にすること。
  • 流暢さ、簡潔さ、正確性などの複数の品質次元における人間の判断を体系的に比較し、モデル出力の品質を評価すること。
  • 自動評価指標と人間の判断との間のギャップを特定し、将来的な評価フレームワークの開発を支援すること。
  • 公開可能で拡張可能なプラットフォームを提供し、テキスト生成および評価手法の進展を加速すること。

提案手法

  • 流暢さ、正確性、簡潔さなどの事前に定義された品質軸に沿って、モデル出力をクラウドソーシングプラットフォームに自動送信し、人間による評価を実施すること。
  • 機械翻訳、要約、常識的推論、機械理解の4つの主要なテキスト生成課題をカバーする、新たに4つの英語データセットを設計・統合すること。
  • 人間の判断を複数のテキスト品質次元にわたり定量的に測定するための明確な粒度評価指標を実装すること。
  • 人間によるアノテーションスコアと既存の自動評価指標のスコアを比較し、乖離を特定し、指標の信頼性を評価すること。
  • 継続的な提出、評価、ベンチマークが可能な、拡張可能なリーダーボードインfraを構築すること。
  • 再現可能性と公開可否を確保し、コミュニティの採用とさらなる研究を促進すること。

実験結果

リサーチクエスチョン

  • RQ1流暢さ、正確性、簡潔さといった異なる品質軸における人間によるテキスト生成品質の判断は、どのように変動するか?
  • RQ2多様なテキスト生成タスクにおいて、自動評価指標は人間によるアノテーションスコアとどの程度相関しているか?
  • RQ3人間による評価を自動的かつスケーラブルに展開できるシステムは、継続的なモデルベンチマークに効果的に対応できるか?
  • RQ4人間の評価と既存の自動評価指標との間には、テキスト生成の評価においてどのような主要な乖離が生じているか?
  • RQ5標準的で拡張可能な人間による評価リーダーボードは、テキスト生成モデルの開発と評価をどのように改善できるか?

主な発見

  • GENIEは、流暢さ、正確性、簡潔さといった複数の品質次元にわたり、テキスト生成出力の自動的かつ大規模な人間による評価を成功裏に実現した。
  • 人間の判断は、特に流暢さと正確性において、自動評価指標と人間のテキスト品質認識との間に顕著な乖離を示した。
  • このプラットフォームは、翻訳、要約、常識的推論、機械理解を含む多様なテキスト生成タスクにおいて、一貫性があり再現可能な評価をサポートした。
  • 人間の評価と自動評価の統合により、現在の自動評価手法の限界が露呈され、改善の余地が浮き彫りになった。
  • GENIEは、継続的なベンチマークとコミュニティ主導のテキスト生成モデル評価を支援する、公開可能で拡張可能なインfraを提供した。
  • このプラットフォームは、複数の品質次元にわたりモデル出力を体系的に比較可能にし、自動評価指標単体よりも洗練された評価を可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。