[论文解读] SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems
SuperGLUE 引入了八个更难的 NLP 任务、一个公共排行榜,以及一个模块化工具包,推动通用语言理解超越 GLUE,同时基于 BERT 的基线仍落后于人类表现。
In the last year, new models and methods for pretraining and transfer learning have driven striking performance improvements across a range of language understanding tasks. The GLUE benchmark, introduced a little over one year ago, offers a single-number metric that summarizes progress on a diverse set of such tasks, but performance on the benchmark has recently surpassed the level of non-expert humans, suggesting limited headroom for further research. In this paper we present SuperGLUE, a new benchmark styled after GLUE with a new set of more difficult language understanding tasks, a software toolkit, and a public leaderboard. SuperGLUE is available at super.gluebenchmark.com.
研究动机与目标
- 提供比 GLUE 更具挑战性且多样化的英语语言理解任务,以更好地衡量通用 NLP 的进展。
- 提供一个公共排行榜、标准化数据分割,以及一个模块化软件工具包,以促进公平且可重复的评估。
- 鼓励开发样本高效、迁移、多任务和自监督学习方法,缩小与人类表现的差距。
提出的方法
- 提出八个具有多样格式的新语言理解任务(包括问答和指代消解)以及小到中等规模数据集的混合。
- 提供人类性能基线和诊断数据集,以分析模型能力和偏差。
- 推出一个公共的、基于 PyTorch 的软件栈(jiant),用于轻松的预训练、多任务学习,以及在 SuperGLUE 任务上的评估。
- 改写评估协议以确保公共排行榜的公平提交,并明确数据使用规则和归属要求。
实验结果
研究问题
- RQ1相对于 GLUE,新的 SuperGLUE 套件对于当前最先进模型有多难?
- RQ2扩大预训练、多任务学习和迁移技术是否能在 SuperGLUE 任务上带来显著提升?
- RQ3随着任务变得更具挑战性,模型在语言、常识和社会偏见方面的呈现程度有多大?
- RQ4在这八个 SuperGLUE 任务和诊断测试中,机器表现与人类表现之间的差距有多大?
主要发现
- 基于 BERT 的基线相较 GLUE 时代的模型显著提升,但平均仍落后人类表现约 20 点。
- 将监督来自相关任务(如 MultiNLI、SWAG)的迁移在若干任务上带来额外提升。
- 在 BoolQ、CB、RTE 和 WiC 上表现仍然最强,在更具挑战性的任务如 WSC 和 COPA 上差距较小,突显常识推理和指代消解方面尚存差距。
- 诊断数据集(AX b、AX g、Winogender)显示,模型虽具竞争力,仍在某些语言现象和性别偏见分析方面存在困难。
- SuperGLUE 提供了一个有意义且更严格的基准,促进多任务、迁移以及无监督/自监督学习方法的发展。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。