[论文解读] Small Models are Valuable Plug-ins for Large Language Models
SuperICL 将一个黑盒 LLM 与本地微调的小模型作为插件结合起来,以提升监督任务性能,超越标准微调和 ICL,同时提供稳定性和可解释性方面的改进。
Large language models (LLMs) such as GPT-3 and GPT-4 are powerful but their weights are often publicly unavailable and their immense sizes make the models difficult to be tuned with common hardware. As a result, effectively tuning these models with large-scale supervised data can be challenging. As an alternative, In-Context Learning (ICL) can only use a small number of supervised examples due to context length limits. In this paper, we propose Super In-Context Learning (SuperICL) which allows black-box LLMs to work with locally fine-tuned smaller models, resulting in superior performance on supervised tasks. Our experiments demonstrate that SuperICL can improve performance beyond state-of-the-art fine-tuned models while addressing the instability problem of in-context learning. Furthermore, SuperICL can enhance the capabilities of smaller models, such as multilinguality and interpretability.
研究动机与目标
- 激发并开发一种方法,利用局部微调的小模型作为黑盒 LLMs 的插件,以提升监督任务性能。
- 通过使用插件预测和置信度来引导 LLM,以解决 In-Context Learning (ICL) 的不稳定性和上下文长度限制。
- 在 GLUE 与 XNLI 基准测试(包括多语言设置)上证明有效性。
- 探索对对抗性攻击的鲁棒性,并分析组件贡献、示例选择以及上下文示例数量。
提出的方法
- 在任务数据上对一个小型插件模型进行微调(例如 GLUE 使用 RoBERTa-Large,XNLI 使用 XLM-V)。
- 通过抽样训练示例并包含带有置信度分数和真实标签的插件预测来构建上下文。
- 将插件测试预测(及置信度)附加到测试输入上,并让 LLM 生成最终标签及可选解释。
- 在 GLUE 和 XNLI 上对比 ICL 与单独的插件模型,评估 SuperICL,分析消融、覆盖以及对示例数量的敏感性。
- 分析对抗性攻击(ANLI)的鲁棒性,并研究插件置信度对决策的影响。
- 比较使用不同插件模型的性能(例如 RoBERTa 与 DeBERTa),并讨论局限性与潜在的未来方向。
实验结果
研究问题
- RQ1在标准监督基准(GLUE、XNLI)上,SuperICL 是否同时优于 GPT-3.5 ICL 与单独的插件模型?
- RQ2上下文、插件置信分数以及测试输入的插件预测如何共同影响整体性能(消融分析)?
- RQ3就就地上下文示例选择和示例数量而言,SuperICL 的稳定性如何?
- RQ4SuperICL 如何处理多语言迁移,哪些语言受益或落后(XNLI 结果)?
- RQ5插件鲁棒性(对抗性攻击)对 SuperICL 性能的影响如何?
主要发现
- 在 GLUE 上,SuperICL 的平均优势分别超过 GPT-3.5 ICL 与 RoBERTa-Large,分别为 8.58 与 1.22 点。
- 在 XNLI 上,当与 XLM-V 搭配时,SuperICL 在多语言上取得显著改进,尽管乌尔都语因为分词与基线弱点未见改进。
- 消融分析显示,包含测试输入的插件预测、插件置信分数和上下文示例对于有效的知识迁移至关重要。
- 与 ICL 相比,SuperICL 在随机种子下表现更稳定,方差更低,尤其在 MRPC 上。
- 当插件置信度较低时,GPT-3.5 的覆盖预测往往发生,表明置信度分数在决策中有意义的作用。
- 使用更强的插件(如 DeBERTa)仍然有利于 SuperICL,尽管当插件与 LLM 的差距缩小时,增益会减小。
- 对抗鲁棒性分析显示,对插件的攻击可能削弱 SuperICL,在某些情况下,在强插件攻击下 ICL 可能优于 SuperICL。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。