QUICK REVIEW

[论文解读] TREC CAsT 2019: The Conversational Assistance Track Overview

Jeff Dalton, Chenyan Xiong|arXiv (Cornell University)|Mar 30, 2020

Topic Modeling参考文献 8被引用 30

一句话总结

本文概述了第一年TREC Conversational Assistance Track (CAsT 2019)的任务定义、数据构建、评估方法、参与系统及结果。它展示了数据集、主题、段落集合，以及用于对话信息检索的大量基线和神经重新排序方法。

ABSTRACT

The Conversational Assistance Track (CAsT) is a new track for TREC 2019 to facilitate Conversational Information Seeking (CIS) research and to create a large-scale reusable test collection for conversational search systems. The document corpus is 38,426,252 passages from the TREC Complex Answer Retrieval (CAR) and Microsoft MAchine Reading COmprehension (MARCO) datasets. Eighty information seeking dialogues (30 train, 50 test) are an average of 9 to 10 questions long. Relevance assessments are provided for 30 training topics and 20 test topics. This year 21 groups submitted a total of 65 runs using varying methods for conversational query understanding and ranking. Methods include traditional retrieval based methods, feature based learning-to-rank, neural models, and knowledge enhanced methods. A common theme through the runs is the use of BERT-based neural reranking methods. Leading methods also employed document expansion, conversational query expansion, and generative language models for conversational query rewriting (GPT-2). The results show a gap between automatic systems and those using the manually resolved utterances, with a 35% relative improvement of manual rewrites over the best automatic system.

研究动机与目标

为第一年CAsT定义对话式检索任务及上下文要求。
创建可复用的主题、段落和评估资源，以实现可重复的对话式信息检索（CIS）研究。
提供基线工具和数据混合（MS MARCO、CAR、WaPo），用于评估对话式段落检索。
评估参与系统的有效性并分析 turns 深度效应，为第二年设计提供指导。

提出的方法

将对话检索定义为在多轮对话上下文中选择简短段落（1-3 句）。
构建 30 个训练主题和 50 个评估主题，每个主题包含十轮，以模拟真实对话。
从 MS MARCO、TREC CAR（维基百科）和 WaPo 收集段落集合，并应用去重规则。
提供训练数据、对话表达的人工改写，以及用于上下文丰富训练的 MS MARCO Conversational Search Sessions 扩展。
发布用于主题加载、基于 Indri 的检索以及批处理和交互式检索的软件工具。

实验结果

研究问题

RQ1对话上下文如何影响每一轮检索段落的相关性？
RQ2对话场景下轮深对检索有效性有何影响？
RQ3哪些方法（检索、重新排序和查询理解）最能利用上下文来提升前几名段落的相关性？
RQ4在评估中，手动（已解析）询问语句与自动（未解析）语句有何差异？
RQ5在自动与手动评估场景中使用神经重排序（如 BERT）的影响如何？

主要发现

自动化实验显示系统之间差异很大，表现最佳的跑次在很大程度上利用了基于 BERT 的重新排序。
手动运行在平均 NDCG@3 上高于自动运行，表明解析、明确的轮次带来收益。
表现最佳的自动运行经常将上下文查询改写/扩展与神经重排序结合；最佳的手动运行也依赖于基于 BERT 的重排序。
在自动运行中，NDCG@3 随轮深度下降，表明在跨轮保持上下文理解存在挑战；手动运行下降更小，手动与自动性能差距扩大。
聚合与评估设计面临资源约束，但作者认为基准可重复使用，并对第二年的设计具信息量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。