[论文解读] True Few-Shot Learning with Language Models
本文表明,在真正的少样本模型选择中(从极少量带标签示例中选择提示和超参数),相对于随机提示的增益非常有限,且常常不及保留验证(held-out validation)表现,凸显了真正的少样本学习中的一个根本挑战。
Pretrained language models (LMs) perform well on many tasks even when learning from a few examples, but prior work uses many held-out examples to tune various aspects of learning, such as hyperparameters, training objectives, and natural language templates ("prompts"). Here, we evaluate the few-shot ability of LMs when such held-out examples are unavailable, a setting we call true few-shot learning. We test two model selection criteria, cross-validation and minimum description length, for choosing LM prompts and hyperparameters in the true few-shot setting. On average, both marginally outperform random selection and greatly underperform selection based on held-out examples. Moreover, selection criteria often prefer models that perform significantly worse than randomly-selected ones. We find similar results even when taking into account our uncertainty in a model's true performance during selection, as well as when varying the amount of computation and number of examples used for selection. Overall, our findings suggest that prior work significantly overestimated the true few-shot ability of LMs given the difficulty of few-shot model selection.
研究动机与目标
- 澄清真正的少样本学习是什么意思,以及它为何影响语言模型中提示和超参数选择的重要性。
- 在真正的少样本设置中经验性评估常用的模型选择标准(交叉验证和最小描述长度)。
- 量化真正的少样本提示和超参数选择与使用保留数据的比较。
- 研究在真正的少样本制度下所选择的提示的稳定性与可迁移性。
提出的方法
- 形式化真正的少样本学习,并将其与调优和多分布少样本设置区分开。
- 评估交叉验证(留一交叉验证 LOOCV)和 MDL(在线编码)作为提示和超参数选择的标准。
- 在 LAMA/UHN 上测试 9 个语言模型(不同规模),以及使用多种提示的其他任务(RTE、CB、WiC 等)。
- 通过提示评估的负对数似然和下游任务的准确率来衡量性能。
- 分析变异性,计算保守的 CV(α)以研究方差控制,并检验提示在模型之间的迁移。
- 评估真正少样本选择中的计算与性能权衡。
实验结果
研究问题
- RQ1在真正的少样本设置中,使用交叉验证和 MDL 能多大程度上选出合适的提示?
- RQ2CV/MDL 的提示选择是否显著优于随机提示,与保留验证相比如何?
- RQ3真正的少样本超参数选择与验证调优的超参数相比,表现如何?
- RQ4在不同模型规模和任务中,提示/超参数选择是否可靠?
- RQ5增加数据、计算量或改变损失标准是否能改善真正的少样本选择结果?
主要发现
- CV/MDL 提示选择相对于随机提示只有边际改进,且常常不及通过保留验证选择的最佳提示。
- 随着模型规模的增大,提示选择的可靠性下降,存在选取低于平均水平提示的高风险(长尾效应)。
- 对于基于 ADAPET 的技术,真正的少样本超参数选择表现为等于或低于平均水平,且常低于用验证选择的最佳超参数。
- 在各任务(LAMA 变体和分类任务 RTE、CB、WiC 等)中,CV/MDL 提示普遍不及保留验证或最佳提示,收益波动较大。
- 增加示例数量或计算量并不能稳定地改善真正的少样本提示选择结果;方差仍然很高。
- 研究建议超越真正的少样本学习,转向元学习、迁移/多任务学习、数据增强或无监督模型选择,并强调对所有超参数和验证使用的透明报告。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。