Skip to main content
QUICK REVIEW

[論文レビュー] What are the best systems? New perspectives on NLP Benchmarking

Pierre Colombo, Nathan Noiry|arXiv (Cornell University)|Feb 8, 2022
Explainable Artificial Intelligence (XAI)被引用数 22
ひとこと要約

Kemenyコンセンサスに基づくランキング法を提案し、複数タスクのNLPベンチマーク結果を集約する。平均集計より信頼性と頑健性が高い可能性を示す。

ABSTRACT

In Machine Learning, a benchmark refers to an ensemble of datasets associated with one or multiple metrics together with a way to aggregate different systems performances. They are instrumental in (i) assessing the progress of new methods along different axes and (ii) selecting the best systems for practical use. This is particularly the case for NLP with the development of large pre-trained models (e.g. GPT, BERT) that are expected to generalize well on a variety of tasks. While the community mainly focused on developing new datasets and metrics, there has been little interest in the aggregation procedure, which is often reduced to a simple average over various performance measures. However, this procedure can be problematic when the metrics are on a different scale, which may lead to spurious conclusions. This paper proposes a new procedure to rank systems based on their performance across different tasks. Motivated by the social choice theory, the final system ordering is obtained through aggregating the rankings induced by each task and is theoretically grounded. We conduct extensive numerical experiments (on over 270k scores) to assess the soundness of our approach both on synthetic and real scores (e.g. GLUE, EXTREM, SEVAL, TAC, FLICKR). In particular, we show that our method yields different conclusions on state-of-the-art systems than the mean-aggregation procedure while being both more reliable and robust.

研究の動機と目的

  • タスクと指標を横断した単純な平均化を超えるNLPベンチマークの集約方法の改善を促す。
  • 社会選択理論(Kemenyコンセンサス)に基づくランキング集約フレームワークを導入する。
  • タスクレベルおよびインスタンスレベルの情報のための、スケーラブルな近似手法(ボーダの計数)と実用的な集約手順を提供する。
  • 大規模NLPベンチマークデータを用いて提案手法の頑健性と信頼性を評価する。)
  • method:[

提案手法

  • NLPベンチマークのタスクレベルおよびインスタンスレベルの集約設定を定義する。
  • タスクレベルのランクを最終的なシステムランキングへ集約するためにKemenyコンセンサスを採用する。
  • NP困難なKemeny最適化に対するスケーラブルな近似解としてボーダの計数を用いる。
  • インスタンスレベルの集約手順を2レベル(2l)と1レベル(l)の2方式提供する。
  • Kendall距離とKendallのτ相関を用いてランクを比較する。
  • 合成実験および大規模実データにおいてスコア操作とスケーリングに対する頑健性を示す。

実験結果

リサーチクエスチョン

  • RQ1Kemenyコンセンサスベースのランキングは、マルチタスクNLPベンチマークにおいて平均集計よりも信頼性の高いシステム順序を生み出すか。
  • RQ2タスク間のスコア操作やスケール変更に対してランキングベースの集約はどの程度頑健か。
  • RQ3タスクや指標の追加・削除が得られるランキングに与える影響はどの程度か。
  • RQ4大規模NLPベンチマークでの実践において、タスクレベルとインスタンスレベルの集約はどのように比較されるか。

主な発見

  • Kemenyコンセンサスによるランキングは、平均集計とは異なる上位システムを示すことがある。
  • 2レベル集約(2l)が、操作やタスク変更に対して提案手法の中で最も頑健である。
  • ランキングベースの手法は、タスクの追加/削除に対して平均集計より高い頑健性を示す。
  • GLUE、SGLUE、XTREM、NLGデータセットにまたがる大規模実験では、タスクレベルのランキングと平均ベースのランキングが異なり、上位システムには高い一致を示す一方で順序は異なる。
  • 著者らは、マルチタスクおよびマルチ指標ベンチマークへの手法の適用を促進するためのコードとデータを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。