[论文解读] Measuring Massive Multitask Language Understanding
一篇论文介绍了一个57任务的多任务基准,用以衡量在不同领域中零-shot和少样本语言模型理解能力。大型模型如GPT-3在超出随机猜测方面有所提高,但仍未达到专家级表现,并且存在校准和知识缺口。
We propose a new test to measure a text model's multitask accuracy. The test covers 57 tasks including elementary mathematics, US history, computer science, law, and more. To attain high accuracy on this test, models must possess extensive world knowledge and problem solving ability. We find that while most recent models have near random-chance accuracy, the very largest GPT-3 model improves over random chance by almost 20 percentage points on average. However, on every one of the 57 tasks, the best models still need substantial improvements before they can reach expert-level accuracy. Models also have lopsided performance and frequently do not know when they are wrong. Worse, they still have near-random accuracy on some socially important subjects such as morality and law. By comprehensively evaluating the breadth and depth of a model's academic and professional understanding, our test can be used to analyze models across many tasks and to identify important shortcomings.
研究动机与目标
- 评估预训练知识在跨越多样现实领域的广度和深度。
- 评估零-shot和少-shot表现以近似人类学习。
- 识别模型在各任务上的盲点和校准不足。
提出的方法
- 创建一个57任务的多项选择基准,覆盖人文学科、社会科学、STEM及其他科目。
- 评估大型语言模型(GPT-3 变体)和经过传输微调的模型(UnifiedQA)的零-shot和少-shot表现。
- 使用四种GPT-3规模(Small到X-Large)和以文本到文本骨干的UnifiedQA。
- 提供每个任务的开发、验证和测试划分,以衡量迁移能力并避免虚假的提示线索。
实验结果
研究问题
- RQ1预训练语言模型在不进行特定任务微调的情况下,如何在跨多领域广泛的世界知识方面获得并应用?
- RQ2模型规模和提示策略(零-shot vs. 少-shot)如何影响这57个任务的表现?
- RQ3当前模型在这一广泛基准上的常见失误模式和校准特性是什么?
- RQ4专门的微调(UnifiedQA)在多大程度上能缩小相对于少-shot GPT-3 的差距?
主要发现
| 模型 | 人文学科 | 社会科学 | STEM | 其他 | 平均 |
|---|---|---|---|---|---|
| 随机基线 | 25.0 | 25.0 | 25.0 | 25.0 | 25.0 |
| RoBERTa | 27.9 | 28.8 | 27.0 | 27.7 | 27.9 |
| ALBERT | 27.2 | 25.7 | 27.7 | 27.9 | 27.1 |
| GPT-2 | 32.8 | 33.3 | 30.2 | 33.1 | 32.4 |
| UnifiedQA | 45.6 | 56.6 | 40.2 | 54.6 | 48.9 |
| GPT-3 Small (few-shot) | 24.4 | 30.9 | 26.0 | 24.1 | 25.9 |
| GPT-3 Medium (few-shot) | 26.1 | 21.6 | 25.6 | 25.5 | 24.9 |
| GPT-3 Large (few-shot) | 27.1 | 25.6 | 24.3 | 26.5 | 26.0 |
| GPT-3 X-Large (few-shot) | 40.8 | 50.4 | 36.7 | 48.8 | 43.9 |
- GPT-3 175B 在少-shot 模式下获得 43.9% 的平均准确率,显著高于随机但在每个任务上仍远低于专家水平。
- UnifiedQA(11B)达到 48.9% 的平均准确率,尽管参数更少,但超过了 GPT-3 变体。
- 模型在各任务上的表现高度不均衡,在某些学科表现强,在数学、物理、法律和道德等其他任务几乎接近随机。
- GPT-3 的置信度估计校准不佳,在零-shot 设置中置信度与准确率之间可能差异高达 24 个百分点。
- 即使是最好的模型也未能在任何单个任务上达到专家级准确性,凸显广泛的知识差距和过程推理的局限性。
- 计算密集型和规范性-法律-道德的任务对当前模型尤其具有挑战性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。