[论文解读] RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering
RocketQA 引入三种训练策略——跨批次负样本、去噪的困难负样本和数据增强——以提升开放领域问答的密集检索,在 MSMARCO 与 Natural Questions 上取得强劲提升,并提高端到端问答性能。
In open-domain question answering, dense passage retrieval has become a new paradigm to retrieve relevant passages for finding answers. Typically, the dual-encoder architecture is adopted to learn dense representations of questions and passages for semantic matching. However, it is difficult to effectively train a dual-encoder due to the challenges including the discrepancy between training and inference, the existence of unlabeled positives and limited training data. To address these challenges, we propose an optimized training approach, called RocketQA, to improving dense passage retrieval. We make three major technical contributions in RocketQA, namely cross-batch negatives, denoised hard negatives and data augmentation. The experiment results show that RocketQA significantly outperforms previous state-of-the-art models on both MSMARCO and Natural Questions. We also conduct extensive experiments to examine the effectiveness of the three strategies in RocketQA. Besides, we demonstrate that the performance of end-to-end QA can be improved based on our RocketQA retriever.
研究动机与目标
- 解决在开放领域问答中训练密集双编码检索器面临的挑战,包括训练/推理差异、未标注的正样本以及数据有限等。
- 提出一个实用的优化流程,以提升检索质量和效率。
- 证明学习得到的检索器能提升端到端问答性能。
- 对每个提出的策略对整体增益的贡献进行分析。
提出的方法
- 使用双编码器架构来学习问题和段落的嵌入,以实现语义匹配。
- 引入跨批次负样本,在训练期间跨多个 GPU 扩大负样本集合。
- 通过利用跨编码器过滤出可能的错误负样本来应用去噪的困难负样本。
- 使用数据增强,通过跨编码器对未标注数据进行标注,并将其信号蒸馏到双编码器中。
- 在 RocketQA 过程的多步骤训练中训练双编码器,包括预训练和伪标注数据整合。
实验结果
研究问题
- RQ1跨批次负样本是否能减少开放领域问答双编码检索中的训练/推理差距?
- RQ2通过跨编码器进行去噪的困难负样本是否比直接选择前 k 的负样本提供更可靠的困难负样本?
- RQ3基于跨编码器的数据增强在标注数据有限的情况下是否能提升双编码器性能?
- RQ4当与阅读器配对时,RocketQA 在端到端问答准确性方面能提升到什么程度?
主要发现
- RocketQA 在 MSMARCO 与 Natural Questions 的密集检索方面显著优于先前的最先进模型。
- 跨批次负样本通过在训练中跨 GPU 增加有效负样本而提供显著增益。
- 去噪的困难负样本相比于未去噪直接采样的困难负样本显著提高了检索性能。
- 使用跨编码器对未标注数据进行标注的数据增强进一步提升,表明教师-学生蒸馏对检索器的好处。
- 使用 RocketQA 检索器与提取式阅读器搭配时,端到端问答性能得到提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。