Skip to main content
QUICK REVIEW

[论文解读] Document Expansion by Query Prediction

Rodrigo Nogueira, Wei Yang|arXiv (Cornell University)|Apr 17, 2019
Topic Modeling参考文献 27被引用 210
一句话总结

该论文提出 Doc2query,一种神经文档扩展方法,预测每个文档的查询并在索引前扩展文档文本,在 BM25 上取得强结果,并可选通过 BERT 重新排序。

ABSTRACT

One technique to improve the retrieval effectiveness of a search engine is to expand documents with terms that are related or representative of the documents' content.From the perspective of a question answering system, this might comprise questions the document can potentially answer. Following this observation, we propose a simple method that predicts which queries will be issued for a given document and then expands it with those predictions with a vanilla sequence-to-sequence model, trained using datasets consisting of pairs of query and relevant documents. By combining our method with a highly-effective re-ranking component, we achieve the state of the art in two retrieval tasks. In a latency-critical regime, retrieval results alone (without re-ranking) approach the effectiveness of more computationally expensive neural re-rankers but are much faster.

研究动机与目标

  • 通过丰富文档表示来解决词汇不匹配问题,而非改写查询表示。
  • 使用一个序列到序列 Transformer 为每个文档预测合乎情理的查询。
  • 在 MS MARCO 和 TREC-CAR 数据集上评估文档扩展,以评估检索提升。
  • 将文档扩展与查询扩展及基线检索进行对比。
  • 证明在索引前进行扩展可以与神经重排序器媲美或互补,同时提升速度。

提出的方法

  • 在(query, relevant document)对上训练基于 Transformer 的 seq2seq 模型,以从文档文本生成查询。
  • 将文档截断到 400 字符并将查询截断到 100 字符以控制内存。
  • 使用 top-k 随机采样生成每个文档的 10 个预测查询。
  • 将预测查询附加到文档并使用 BM25 进行索引。
  • 可选地使用 BERT 对检索结果进行再排序以提升最终排序。
  • 提供开源代码和训练模型以便复现。

实验结果

研究问题

  • RQ1通过预测查询的文档扩展是否能在初始检索性能上优于标准的 BM25?
  • RQ2对于长文本文档,文档扩展是否比查询扩展更有效?
  • RQ3在 Doc2query 扩展文档的基础上使用 re-ranker(如 BERT)对结果的影响如何?
  • RQ4Doc2query 在多样的数据集(如 MS MARCO 和 TREC-CAR)上表现如何?
  • RQ5哪种解码方案(beam search 与 top-k 采样)可带来最佳检索提升?

主要发现

  • 与 Doc2query 的文档扩展相比,BM25 单独使用在 MS MARCO 和 TREC-CAR 上的检索效果提升约 15%。
  • 将 Doc2query 与 BERT re-ranker 结合,在 TREC-CAR 上达到已知最佳结果,在 MS MARCO 上接近最先进水平。
  • Doc2query 以拷贝和新颖术语的混合方式扩展文档,为检索提供互补信号。
  • RM3 查询扩展在这些以精确度为导向的数据集上并不提升性能。
  • Doc2query 扩展在 BM25 上增加了微小延迟,但仍比诸如 Duet v2 + BERT 之类的神经重排序器更快。
  • 在索引前扩展将计算负载从查询时间推理转移到文档索引阶段。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。