[论文解读] CLUE: A Chinese Language Understanding Evaluation Benchmark
CLUE 引入了一个大规模的中文自然语言理解基准,包含 9 项任务、一个 214 GB 的预训练语料、一个诊断数据集,以及一个公开的排行榜,配套 PyCLUE 工具包,用于评估中文模型。
The advent of natural language understanding (NLU) benchmarks for English, such as GLUE and SuperGLUE allows new NLU models to be evaluated across a diverse set of tasks. These comprehensive benchmarks have facilitated a broad range of research and applications in natural language processing (NLP). The problem, however, is that most such benchmarks are limited to English, which has made it difficult to replicate many of the successes in English NLU for other languages. To help remedy this issue, we introduce the first large-scale Chinese Language Understanding Evaluation (CLUE) benchmark. CLUE is an open-ended, community-driven project that brings together 9 tasks spanning several well-established single-sentence/sentence-pair classification tasks, as well as machine reading comprehension, all on original Chinese text. To establish results on these tasks, we report scores using an exhaustive set of current state-of-the-art pre-trained Chinese models (9 in total). We also introduce a number of supplementary datasets and additional tools to help facilitate further progress on Chinese NLU. Our benchmark is released at https://www.CLUEbenchmarks.com
研究动机与目标
- 提供一个全面、标准化的中文自然语言理解基准,可与 GLUE/SuperGLUE 等英文基准相媲美。
- 策划涵盖单句、句子对和机器阅读理解的多样化中文 NLU 任务,以探索不同模型能力。
- 发布一个大规模、开放的中文预训练语料库,以实现有意义的跨模型比较。
- 提供诊断数据以分析模型对中文特有语言现象的理解,并提供便于应用和复现的工具。
提出的方法
- 组建九个中文 NLU 任务(单句、句子对和 MRC),并给出清晰的 train/dev/test 划分。
- 创建一个大规模的 214 GB 中文预训练语料,总计约 760 亿词,来自多个来源(CLUECorpus2020-small、CLUECorpus2020、CLUEOSCAR)。
- 设计一个由中文语言学家精心打造的语义/语言现象诊断数据集,用以探查指涉、单调性以及中文特有的体貌标记等现象。
- 提供一个公开的在线排行榜,带自动评测系统,并对开源模型的可重复性进行认证。
- 开发 PyCLUE,一个基于 TensorFlow 的工具包,便于在标准架构上对 CLUE 任务进行训练和评估。
实验结果
研究问题
- RQ1当前的预训练中文语言模型在多样化中文 NLU 任务上的表现如何?
- RQ2模型规模和预训练数据在 CLUE 框架下对中文 NLU 表现的影响如何?
- RQ3模型在诊断数据集中捕捉的中文特有语言现象方面在多大程度上存在困难?
- RQ4模型在核心 CLUE 任务上的表现与人类水平的接近程度如何?差距最大的领域在哪里?
主要发现
- 更大的模型以及使用更多预训练数据的模型在平均 CLUE 分数上表现更高。
- RoBERTa-wwm-ext-large 与 ALBERT-xxlarge 在基线模型中总体表现最佳,对机器阅读理解任务尤其有优势。
- 小模型(如 ALBERT-tiny)在单句/句子对任务上提升有限,但在机器阅读理解任务上性能显著下降,凸显紧凑模型在整体理解方面的局限。
- 所有模型在若干任务上都与人类表现存在相当大的差距,尤其是需要深层推理的任务,如 WSC 风格挑战和自由形式 MRC(C 3)。
- 诊断数据集揭示,即使是强模型也难以应对中文特有现象,如单调性和词汇语义区分。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。