[论文解读] End-to-End Retrieval in Continuous Space
本文展示了在连续空间中通过双编码器和离线 ANN 搜索实现端到端检索,在两个相似问题数据集上显著优于离散检索基线。它还引入负采样策略并讨论检索系统的评估。
Most text-based information retrieval (IR) systems index objects by words or phrases. These discrete systems have been augmented by models that use embeddings to measure similarity in continuous space. But continuous-space models are typically used just to re-rank the top candidates. We consider the problem of end-to-end continuous retrieval, where standard approximate nearest neighbor (ANN) search replaces the usual discrete inverted index, and rely entirely on distances between learned embeddings. By training simple models specifically for retrieval, with an appropriate model architecture, we improve on a discrete baseline by 8% and 26% (MAP) on two similar-question retrieval tasks. We also discuss the problem of evaluation for retrieval systems, and show how to modify existing pairwise similarity datasets for this purpose.
研究动机与目标
- 将端到端连续检索作为离散倒排索引系统的替代方案进行动机说明。
- 提出一个双编码器架构,独立编码查询和候选项以实现高效的 ANN 检索。
- 探索损失函数和负采样策略以训练检索优化的嵌入。
- 将成对数据集转换为检索任务以评估端到端检索在现实世界中的表现。
提出的方法
- 定义一个带查询编码器和候选编码器的 双编码器框架,输出 d 维嵌入。
- 使用余弦相似度作为检索分数,并应用一个学习得到的仿射变换将相似度缩放为对数几率。
- 尝试多种负采样损失,在批内采样的 Softmax 在实验中效果最好。
- 使用小批量梯度下降进行训练,采用较大的批量以提供多样的负样本。
- 通过传递闭包将成对数据集转换为不完整的检索任务,以获得测试查询和候选项。
- 使用检索到的前 K 名的 MAP@100 进行评估,并与传统基线如 TFIDF 和 BM25 进行比较。
实验结果
研究问题
- RQ1端到端的连续检索是否能在真实检索任务中超越传统的离散检索基线?
- RQ2不同的负采样损失如何影响端到端检索的性能?
- RQ3多任务双编码器设置是否在相关任务上提升检索?
- RQ4批量大小对端到端检索的 MAP@100 有何影响?
主要发现
- 端到端双编码器检索在 Quora 和 AskUbuntu 数据集的 MAP@100 上优于如 TFIDF、BM25 等离散基线。
- 批内采样的 Softmax 损失在所测试的策略中提供了最佳检索结果和更快的收敛。
- 更大的批量大小能够提高 MAP@100,实验中 2、10、100 和 1000 依次获得更高分数。
- 来自多个查询任务的数据的多任务训练提供了强劲的检索性能。
- 结合 Paralex、Quora 和 AskUbuntu 数据的多任务双编码器实现了最佳总体结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。