[论文解读] Document Expansion by Query Prediction
该论文提出 Doc2query,一种神经文档扩展方法,预测每个文档的查询并在索引前扩展文档文本,在 BM25 上取得强结果,并可选通过 BERT 重新排序。
One technique to improve the retrieval effectiveness of a search engine is to expand documents with terms that are related or representative of the documents' content.From the perspective of a question answering system, this might comprise questions the document can potentially answer. Following this observation, we propose a simple method that predicts which queries will be issued for a given document and then expands it with those predictions with a vanilla sequence-to-sequence model, trained using datasets consisting of pairs of query and relevant documents. By combining our method with a highly-effective re-ranking component, we achieve the state of the art in two retrieval tasks. In a latency-critical regime, retrieval results alone (without re-ranking) approach the effectiveness of more computationally expensive neural re-rankers but are much faster.
研究动机与目标
- 通过丰富文档表示来解决词汇不匹配问题,而非改写查询表示。
- 使用一个序列到序列 Transformer 为每个文档预测合乎情理的查询。
- 在 MS MARCO 和 TREC-CAR 数据集上评估文档扩展,以评估检索提升。
- 将文档扩展与查询扩展及基线检索进行对比。
- 证明在索引前进行扩展可以与神经重排序器媲美或互补,同时提升速度。
提出的方法
- 在(query, relevant document)对上训练基于 Transformer 的 seq2seq 模型,以从文档文本生成查询。
- 将文档截断到 400 字符并将查询截断到 100 字符以控制内存。
- 使用 top-k 随机采样生成每个文档的 10 个预测查询。
- 将预测查询附加到文档并使用 BM25 进行索引。
- 可选地使用 BERT 对检索结果进行再排序以提升最终排序。
- 提供开源代码和训练模型以便复现。
实验结果
研究问题
- RQ1通过预测查询的文档扩展是否能在初始检索性能上优于标准的 BM25?
- RQ2对于长文本文档,文档扩展是否比查询扩展更有效?
- RQ3在 Doc2query 扩展文档的基础上使用 re-ranker(如 BERT)对结果的影响如何?
- RQ4Doc2query 在多样的数据集(如 MS MARCO 和 TREC-CAR)上表现如何?
- RQ5哪种解码方案(beam search 与 top-k 采样)可带来最佳检索提升?
主要发现
- 与 Doc2query 的文档扩展相比,BM25 单独使用在 MS MARCO 和 TREC-CAR 上的检索效果提升约 15%。
- 将 Doc2query 与 BERT re-ranker 结合,在 TREC-CAR 上达到已知最佳结果,在 MS MARCO 上接近最先进水平。
- Doc2query 以拷贝和新颖术语的混合方式扩展文档,为检索提供互补信号。
- RM3 查询扩展在这些以精确度为导向的数据集上并不提升性能。
- Doc2query 扩展在 BM25 上增加了微小延迟,但仍比诸如 Duet v2 + BERT 之类的神经重排序器更快。
- 在索引前扩展将计算负载从查询时间推理转移到文档索引阶段。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。