[论文解读] Distilling Knowledge from Reader to Retriever for Question Answering
这篇论文通过从阅读器的交叉注意力分数中蒸馏信号,在没有强监督的情况下训练检索器,在开放域问答基准上实现了最先进的结果。
The task of information retrieval is an important component of many natural language processing systems, such as open domain question answering. While traditional methods were based on hand-crafted features, continuous representations based on neural networks recently obtained competitive results. A challenge of using such methods is to obtain supervised data to train the retriever model, corresponding to pairs of query and support documents. In this paper, we propose a technique to learn retriever models for downstream tasks, inspired by knowledge distillation, and which does not require annotated pairs of query and documents. Our approach leverages attention scores of a reader model, used to solve the task based on retrieved documents, to obtain synthetic labels for the retriever. We evaluate our method on question answering, obtaining state-of-the-art results.
研究动机与目标
- 在没有标注的查询-文档对的情况下,推动开放域问答的信息检索改进。
- 提出一个学生-教师框架,其中阅读器通过注意力信号引导检索器的训练。
- 展示迭代训练以逐步提升检索器和阅读器的性能。
提出的方法
- 将 Fusion-in-Decoder 作为阅读器来处理问题与检索到的段落。
- 通过对段落标记的阅读器跨注意力取平均,定义段落相关性分数 G_q,p。
- 通过 KL-divergence 损失训练一个密集双编码器检索器以模仿阅读器分数。
- 探索替代目标(MSE、最大边距)和对注意力信号的聚合方案。
- 迭代地重新训练阅读器和检索器,使用更新后的检索器获取新的段落。
实验结果
研究问题
- RQ1是否可以在没有显式查询-文档监督的情况下,通过蒸馏阅读器的信号来有效训练检索器?
- RQ2阅读器推导的注意力分数与段落相关性在检索中的相关性有多高?
- RQ3哪种训练目标和注意力聚合选择最能使双编码检索器模仿阅读器的相关性?
- RQ4与非迭代基线相比,迭代的师生训练是否能提升端到端的问答性能?
主要发现
- 阅读器的注意力分数是段落相关性的一个很好的代理。
- 在所测试的目标中,阅读器和检索器分数之间的 KL 散度达到最佳检索质量。
- 迭代训练提升性能,增益取决于初始段落的质量。
- 从 BM25 或 DPR 段落开始比从较弱的基线(如原始的基于 BERT 的检索)开始得到更强的结果。
- 以更大的阅读器模型从 DPR 开始,在 TriviaQA 和 NaturalQuestions 上实现显著的端到端提升。
- 与若干基线相比,该方法在开放域问答基准上达到最先进的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。