Skip to main content
QUICK REVIEW

[论文解读] Atlas: Few-shot Learning with Retrieval Augmented Language Models

Gautier Izacard, Patrick Lewis|arXiv (Cornell University)|Aug 5, 2022
Topic Modeling被引用 196
一句话总结

Atlas 表明 检索增强的语言模型 能够在极少参数的情况下,在少样本知识任务中表现出色,通过同时训练检索器和 seq2seq 阅读器。

ABSTRACT

Large language models have shown impressive few-shot results on a wide range of tasks. However, when knowledge is key for such results, as is the case for tasks such as question answering and fact checking, massive parameter counts to store knowledge seem to be needed. Retrieval augmented models are known to excel at knowledge intensive tasks without the need for as many parameters, but it is unclear whether they work in few-shot settings. In this work we present Atlas, a carefully designed and pre-trained retrieval augmented language model able to learn knowledge intensive tasks with very few training examples. We perform evaluations on a wide range of tasks, including MMLU, KILT and NaturalQuestions, and study the impact of the content of the document index, showing that it can easily be updated. Notably, Atlas reaches over 42% accuracy on Natural Questions using only 64 examples, outperforming a 540B parameters model by 3% despite having 50x fewer parameters.

研究动机与目标

  • 深入研究在少样本设置下检索增强语言模型的设计与训练策略。
  • 开发并评估一个名为 Atlas 的模型,在参数量较低的情况下执行知识密集型任务。
  • 研究如何高效微调检索器和语言模型组件以适应少样本任务。
  • 评估 Atlas 使用的外部知识索引的更新和可解释性。

提出的方法

  • 采用两组件架构:一个密集双编码检索器(Contriever)和一个基于 T5 的序列到序列阅读器,使用 Fusion-in-Decoder。
  • 联合训练检索器和阅读器,使用多种基于检索的目标函数,利用语言模型信号(ADist、EMDR2、PDist、LOOP)。
  • 通过无监督任务(前缀 LM、掩码 LM、标题到章节生成)进行预训练,以对齐检索器和 LM 的能力。
  • 使用查询端优化进行微调,并尝试索引更新策略以管理检索器索引的新鲜度。
  • 将所有任务框定在文本到文本范式下,在编码器中独立处理检索到的文档,在解码器中进行跨注意力。
  • 探索高效的检索器微调策略,以在训练期间降低索引刷新开销。

实验结果

研究问题

  • RQ1检索增强模型是否能够仅用相对较少的训练样本学习知识密集型任务?
  • RQ2哪些训练信号和预训练目标最能使检索器与语言模型在少样本学习中对齐?
  • RQ3索引更新策略如何影响训练效率和下游性能?

主要发现

  • Atlas 在 Natural Questions 上,以 11B 参数模型在 64 个训练样本下达到 42.4% 的准确率,超过 540B 参数模型约 3 个点。
  • 使用仅包含维基百科的索引时,Atlas 在 Natural Questions 上达到 45.1%,在全数据集设定下达到 64.0%,比前一状态新水平高出 8 个点。
  • Atlas 在 MMLU、TriviaQA、FEVER 以及其他 KILT 任务上展现出强劲的少样本和全数据集表现,常常优于更大规模的模型。
  • 检索器和 LM 的联合预训练对少样本表现至关重要,且多种检索器监督损失(ADist、EMDR2、PDist、LOOP)有效。
  • 一个高效的检索器微调策略和索引管理技术使得在大规模文档集合上的实际训练成为可能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。