QUICK REVIEW

[论文解读] Document Expansion by Query Prediction

Rodrigo Nogueira, Wei Yang|arXiv (Cornell University)|Apr 17, 2019

Topic Modeling参考文献 27被引用 210

一句话总结

该论文提出 Doc2query，一种神经文档扩展方法，预测每个文档的查询并在索引前扩展文档文本，在 BM25 上取得强结果，并可选通过 BERT 重新排序。

ABSTRACT

One technique to improve the retrieval effectiveness of a search engine is to expand documents with terms that are related or representative of the documents' content.From the perspective of a question answering system, this might comprise questions the document can potentially answer. Following this observation, we propose a simple method that predicts which queries will be issued for a given document and then expands it with those predictions with a vanilla sequence-to-sequence model, trained using datasets consisting of pairs of query and relevant documents. By combining our method with a highly-effective re-ranking component, we achieve the state of the art in two retrieval tasks. In a latency-critical regime, retrieval results alone (without re-ranking) approach the effectiveness of more computationally expensive neural re-rankers but are much faster.

研究动机与目标

通过丰富文档表示来解决词汇不匹配问题，而非改写查询表示。
使用一个序列到序列 Transformer 为每个文档预测合乎情理的查询。
在 MS MARCO 和 TREC-CAR 数据集上评估文档扩展，以评估检索提升。
将文档扩展与查询扩展及基线检索进行对比。
证明在索引前进行扩展可以与神经重排序器媲美或互补，同时提升速度。

提出的方法

在（query, relevant document）对上训练基于 Transformer 的 seq2seq 模型，以从文档文本生成查询。
将文档截断到 400 字符并将查询截断到 100 字符以控制内存。
使用 top-k 随机采样生成每个文档的 10 个预测查询。
将预测查询附加到文档并使用 BM25 进行索引。
可选地使用 BERT 对检索结果进行再排序以提升最终排序。
提供开源代码和训练模型以便复现。

实验结果

研究问题

RQ1通过预测查询的文档扩展是否能在初始检索性能上优于标准的 BM25？
RQ2对于长文本文档，文档扩展是否比查询扩展更有效？
RQ3在 Doc2query 扩展文档的基础上使用 re-ranker（如 BERT）对结果的影响如何？
RQ4Doc2query 在多样的数据集（如 MS MARCO 和 TREC-CAR）上表现如何？
RQ5哪种解码方案（beam search 与 top-k 采样）可带来最佳检索提升？

主要发现

与 Doc2query 的文档扩展相比，BM25 单独使用在 MS MARCO 和 TREC-CAR 上的检索效果提升约 15%。
将 Doc2query 与 BERT re-ranker 结合，在 TREC-CAR 上达到已知最佳结果，在 MS MARCO 上接近最先进水平。
Doc2query 以拷贝和新颖术语的混合方式扩展文档，为检索提供互补信号。
RM3 查询扩展在这些以精确度为导向的数据集上并不提升性能。
Doc2query 扩展在 BM25 上增加了微小延迟，但仍比诸如 Duet v2 + BERT 之类的神经重排序器更快。
在索引前扩展将计算负载从查询时间推理转移到文档索引阶段。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。