[论文解读] Decoding a Neural Retriever's Latent Space for Query Suggestion
本文提出一种查询解码器,通过从查询嵌入到其相关文档嵌入的路径遍历,反演神经检索器的潜在空间,以生成有意义的查询重写。该方法在MSMarco上构建了一个大规模的合成查询建议数据集,用于微调基于T5的伪相关性反馈模型,该模型在流畅性、多样性及检索有效性方面均优于基线模型。
Neural retrieval models have superseded classic bag-of-words methods such as BM25 as the retrieval framework of choice. However, neural systems lack the interpretability of bag-of-words models; it is not trivial to connect a query change to a change in the latent space that ultimately determines the retrieval results. To shed light on this embedding space, we learn a "query decoder" that, given a latent representation of a neural search engine, generates the corresponding query. We show that it is possible to decode a meaningful query from its latent representation and, when moving in the right direction in latent space, to decode a query that retrieves the relevant paragraph. In particular, the query decoder can be useful to understand "what should have been asked" to retrieve a particular paragraph from the collection. We employ the query decoder to generate a large synthetic dataset of query reformulations for MSMarco, leading to improved retrieval performance. On this data, we train a pseudo-relevance feedback (PRF) T5 model for the application of query suggestion that outperforms both query reformulation and PRF information retrieval baselines.
研究动机与目标
- 为解决神经检索模型中的可解释性差距问题,即查询变化与潜在空间变化之间映射不清晰的问题。
- 通过解码相关文档的潜在表示,实现语义上合理的查询重写。
- 在无需人工标注的情况下,利用潜在空间遍历构建大规模、合成的查询建议数据集。
- 训练一种查询建议模型,通过伪相关性反馈机制提升检索性能。
- 从流畅性、多样性及检索相关性三个方面评估生成建议的有效性。
提出的方法
- 训练一个查询解码器模型,以反转双编码器检索器(如GTR)的固定神经编码器,将潜在嵌入映射回自然语言查询。
- 从查询嵌入到其黄金检索文档的嵌入之间进行潜在空间遍历,沿路径采样中间点。
- 使用查询解码器从每个中间潜在点生成重写查询,从而构建一个合成的查询建议数据集。
- 在该合成数据集上微调T5-large模型,以原始查询和前5个检索结果作为输入,预测多样且相关的查询建议。
- 使用自动指标(如自相似BLEU,衡量多样性;困惑度,衡量流畅性)进行评估,并在MSMarco和NQ上测量检索性能。
- 利用潜在空间结构引导查询优化,确保重写结果朝向目标文档嵌入方向演进。
实验结果
研究问题
- RQ1神经查询解码器能否有效从神经检索器潜在表示中重建自然语言查询?
- RQ2在查询与其相关文档之间遍历潜在空间,能否生成有意义且多样的查询重写?
- RQ3此类重写的合成数据集能否在伪相关性反馈设置下提升查询建议模型的性能?
- RQ4与基线模型相比,生成的查询建议在流畅性、多样性和检索有效性方面表现如何?
- RQ5查询解码器在多大程度上能帮助识别‘本应提出的问题’以检索特定文档?
主要发现
- 查询解码器能从潜在表示中成功生成流畅且多样的查询重写,MSMarco上的自相似BLEU为17.8,NQ上为18.4,表明其多样性优于基线模型。
- 基于T5的查询建议模型(qsT5)在MSMarco上自相似BLEU为17.8,在NQ上为18.4,其在多样性和流畅性方面均优于MQR和RM3基线模型。
- qsT5模型在MSMarco上的困惑度为247.8,在NQ上为223.2,表明其流畅性高于基线T5-plain模型(MSMarco为196.6,NQ为249.8)。
- 该合成查询建议数据集显著提升了检索性能,qsT5模型在MSMarco和NQ上均优于查询重写和传统伪相关性反馈基线模型。
- 该方法通过利用共享查询-文档潜在空间的几何结构,实现了无需人工标注的有效查询优化。
- 该方法表明,潜在空间遍历与查询解码相结合,可生成语义相关、多样且高效的查询建议,适用于检索系统。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。