QUICK REVIEW

[论文解读] SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems

Alex Wang, Yada Pruksachatkun|arXiv (Cornell University)|May 2, 2019

Topic Modeling参考文献 67被引用 986

一句话总结

SuperGLUE 引入了八个更难的 NLP 任务、一个公共排行榜，以及一个模块化工具包，推动通用语言理解超越 GLUE，同时基于 BERT 的基线仍落后于人类表现。

ABSTRACT

In the last year, new models and methods for pretraining and transfer learning have driven striking performance improvements across a range of language understanding tasks. The GLUE benchmark, introduced a little over one year ago, offers a single-number metric that summarizes progress on a diverse set of such tasks, but performance on the benchmark has recently surpassed the level of non-expert humans, suggesting limited headroom for further research. In this paper we present SuperGLUE, a new benchmark styled after GLUE with a new set of more difficult language understanding tasks, a software toolkit, and a public leaderboard. SuperGLUE is available at super.gluebenchmark.com.

研究动机与目标

提供比 GLUE 更具挑战性且多样化的英语语言理解任务，以更好地衡量通用 NLP 的进展。
提供一个公共排行榜、标准化数据分割，以及一个模块化软件工具包，以促进公平且可重复的评估。
鼓励开发样本高效、迁移、多任务和自监督学习方法，缩小与人类表现的差距。

提出的方法

提出八个具有多样格式的新语言理解任务（包括问答和指代消解）以及小到中等规模数据集的混合。
提供人类性能基线和诊断数据集，以分析模型能力和偏差。
推出一个公共的、基于 PyTorch 的软件栈（jiant），用于轻松的预训练、多任务学习，以及在 SuperGLUE 任务上的评估。
改写评估协议以确保公共排行榜的公平提交，并明确数据使用规则和归属要求。

实验结果

研究问题

RQ1相对于 GLUE，新的 SuperGLUE 套件对于当前最先进模型有多难？
RQ2扩大预训练、多任务学习和迁移技术是否能在 SuperGLUE 任务上带来显著提升？
RQ3随着任务变得更具挑战性，模型在语言、常识和社会偏见方面的呈现程度有多大？
RQ4在这八个 SuperGLUE 任务和诊断测试中，机器表现与人类表现之间的差距有多大？

主要发现

基于 BERT 的基线相较 GLUE 时代的模型显著提升，但平均仍落后人类表现约 20 点。
将监督来自相关任务（如 MultiNLI、SWAG）的迁移在若干任务上带来额外提升。
在 BoolQ、CB、RTE 和 WiC 上表现仍然最强，在更具挑战性的任务如 WSC 和 COPA 上差距较小，突显常识推理和指代消解方面尚存差距。
诊断数据集（AX b、AX g、Winogender）显示，模型虽具竞争力，仍在某些语言现象和性别偏见分析方面存在困难。
SuperGLUE 提供了一个有意义且更严格的基准，促进多任务、迁移以及无监督/自监督学习方法的发展。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。