[论文解读] Overview of the TREC 2019 deep learning track
本文介绍了 TREC 2019 深度学习赛道,包含两个临时检索任务、大规模基于 MS MARCO 的训练数据、盲评估,以及对 nnlm、nn 与传统 IR 方法的比较,包括端到端与重新排序分析。
The Deep Learning Track is a new track for TREC 2019, with the goal of studying ad hoc ranking in a large data regime. It is the first track with large human-labeled training sets, introducing two sets corresponding to two tasks, each with rigorous TREC-style blind evaluation and reusable test sets. The document retrieval task has a corpus of 3.2 million documents with 367 thousand training queries, for which we generate a reusable test set of 43 queries. The passage retrieval task has a corpus of 8.8 million passages with 503 thousand training queries, for which we generate a reusable test set of 43 queries. This year 15 groups submitted a total of 75 runs, using various combinations of deep learning, transfer learning and traditional IR ranking methods. Deep learning runs significantly outperformed traditional IR runs. Possible explanations for this result are that we introduced large training data and we included deep models trained on such data in our judging pools, whereas some past studies did not have such training data or pooling.
研究动机与目标
- 提供在大数据情境下用于深度学习与传统排序方法的大型、可重复使用的训练和测试数据集。
- 进行严格的盲评估单次性评估,以比较排序方法。
- 研究在实际信息检索部署中端到端检索与重新排序的对比。
- 在一致的评估下比较神经语言模型、神经网络方法与传统 IR 基线。
- 探索深度学习方法与传统索引在大规模检索中的互动。
提出的方法
- 两个任务(文档检索和短语检索),具有端到端与重新排序参与方式(fullrank vs rerank)。
- 基于 MS MARCO 的大规模训练集,使用从段落到文档的标签传递。
- 将运行分为 nnlm(如 BERT/XLNet 等预训练神经语言模型)、nn(神经网络)和 trad(传统 IR)。
- 以 NDCG@10 作为主要指标,辅以 NCG@k 的次要分析以评估相关结果的召回。
- 每个任务使用 43 个可重复使用的测试查询,由 NIST 进行盲评判,采用合并评判并在 HiCAL 辅助下扩展。
- 使用 43 维 NDCG 向量通过 t-SNE降维,可视化评估之间的相似性,以分析按模型类型和组的聚类。
实验结果
研究问题
- RQ1在大数据的临时检索任务中,深度学习模型(nnlm)是否优于传统 IR 方法(trad)?
- RQ2在文档检索和段落检索任务中,nnlm、nn 和 trad 方法的比较如何?
- RQ3端到端检索(fullrank)与重新排序(rerank)对检索效果的影响是什么?
- RQ4基于 MS MARCO 的训练标签是否可转移且对使用 NIST 标签的 TREC 风格评估有预测力?
主要发现
- nnlm 运行在文档和段落检索任务中均超越了 nn 与 trad。best nnlm 相对于 best trad 的 NDCG@10 差距为文档检索 29.4%,段落检索 37.4%。
- 端到端的 fullrank 提交未持续超过 rerank 提交;所观察到的在 NDCG@10 的最佳差异为 0.9%(文档)和 3.6%(段落),倾向于 fullrank。
- 对于文档检索,最高的 NCG@100 由 BM25+RM3 设置实现,结合 doc2query 增强,相比 100 候选基线提升 22.9%。
- t-SNE 分析显示运行按组和模型类型(nnlm、nn、trad)聚类,表明方法之间存在有意义的相似性。
- 与 MS MARCO 与 NIST 标签的交叉评估显示运行排序总体一致,支持 MS MARCO 结果作为传统 TREC 表现的指示。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。