[論文レビュー] SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems
SuperGLUEは8つのより難しいNLPタスク、公開リーダーボード、一般目的の言語理解をGLUEを超えて推進するモジュール式ツールキットを導入する。BERTベースのベースラインは依然として人間の性能に及ばない。
In the last year, new models and methods for pretraining and transfer learning have driven striking performance improvements across a range of language understanding tasks. The GLUE benchmark, introduced a little over one year ago, offers a single-number metric that summarizes progress on a diverse set of such tasks, but performance on the benchmark has recently surpassed the level of non-expert humans, suggesting limited headroom for further research. In this paper we present SuperGLUE, a new benchmark styled after GLUE with a new set of more difficult language understanding tasks, a software toolkit, and a public leaderboard. SuperGLUE is available at super.gluebenchmark.com.
研究の動機と目的
- GLUEよりもより挑戦的で多様な英語言語理解タスクのセットを提供し、一般目的NLPの進捗をより適切に測る。
- 公開リーダーボード、標準化されたデータ分割、再現可能で公正な評価を促進するモジュール式ソフトウェアツールキットを提供する。
- 人間のパフォーマンスとの差を縮めるサンプル効率の高い、転移学習、マルチタスク学習、自己教師あり学習法の開発を奨励する。
提案手法
- QAやコアフォレンスを含む多様な形式の新しい言語理解タスクを8つ提案し、大小中規模データセットを混在させる。
- モデルの能力とバイアスを分析するための人間のパフォーマンスベースラインと診断データセットを提供する。
- SuperGLUEタスクの事前学習、マルチタスク学習、評価を容易にする公開のPyTorchベースのソフトウェアスタック(jiant)を導入する。
- 公正なリーダーボード提出を保証するよう評価プロトコルを再構成し、明示的なデータ使用ルールと著作権表示要件を設ける。
実験結果
リサーチクエスチョン
- RQ1現在の最先端モデルにとって、新しいSuperGLUEスイートはGLUEと比較してどの程度難しいか?
- RQ2事前学習の大規模化、マルチタスク学習、転移技術の拡大はSuperGLUEタスクで実質的な向上につながるか?
- RQ3タスクがより難しくなるにつれ、モデルは言語的、常識的、社会的バイアスをどの程度示すか?
- RQ48つのSuperGLUEタスクと診断における機械性能と人間性能のギャップはどの程度か?
主な発見
- BERTベースのベースラインはGLUE時代のモデルより大幅に向上するが、平均して約20ポイント人間の性能には及ばない。
- 関連タスク(例:MultiNLI、SWAG)から監視を転移することで、いくつかのタスクで追加の改善が得られる。
- Performance remains strongest on BoolQ, CB, RTE, and WiC with smaller margins on more challenging tasks like WSC and COPA, highlighting remaining gaps in commonsense reasoning and coreference.
- Diagnostic datasets(AX b、AX g、Winogender)は、競合的である一方で、特定の言語現象と性別バイアス分析にまだ苦戦していることを示している。
- SuperGLUE provides a meaningful, stricter benchmark that promotes the development of multitask, transfer, and unsupervised/self-supervised learning approaches.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。