[论文解读] TREC-COVID: Constructing a Pandemic Information Retrieval Test Collection
TREC-COVID 构建了一个围绕 COVID-19 文献(CORD-19)的多轮疫情聚焦测试集合,用于在主题和文档实时演变时评估检索系统。它引入了具有最新文档语料和动态相关性判断的快速评估循环。
TREC-COVID is a community evaluation designed to build a test collection that captures the information needs of biomedical researchers using the scientific literature during a pandemic. One of the key characteristics of pandemic search is the accelerated rate of change: the topics of interest evolve as the pandemic progresses and the scientific literature in the area explodes. The COVID-19 pandemic provides an opportunity to capture this progression as it happens. TREC-COVID, in creating a test collection around COVID-19 literature, is building infrastructure to support new research and technologies in pandemic search.
研究动机与目标
- 在疫情期间,捕捉使用科学文献的生物医药研究人员的信息需求。
- 将 TREC 风格评估扩展到多轮、不断演变的文档集合。
- 提供用于在快速变化的生物医学危机中评估搜索算法和系统的基础设施。
- 使全球卫生紧急事件中的科学信息管理获得洞察。
提出的方法
- 将 CORD-19 作为面向生物医学的即时检索任务的文档集。
- 将评估分为轮次,设定主题发布、提交运行和相关性评估的短时限。
- 将每轮视为独立评估,但允许主题/文档集成为前一轮的超集。
- 在对轮次进行评分时,使用残留集合评估;对于已为某主题判定的文档,在后续轮次中将被移除。
- 使用主题来评估相关性,标签为:Relevant、Partially Relevant、Not Relevant,由临床医生和编目员收集。
实验结果
研究问题
- RQ1在健康危机期间,疫情信息检索测试集合如何反映不断变化的信息需求?
- RQ2多轮、不断演变的语料库对检索评估和系统排序稳定性有何影响?
- RQ3为快速变化的生物医学文献评估信息检索,需要哪些基础设施和方法学扩展?
主要发现
- Round 1 吸引了来自亚洲、澳大利亚、欧洲和北美的 56 支团队提交的 143 次实验。
- Round 1 使用了 30 个主题,平均每个主题约有 289.7 条判定(总计 8,691 条判定)。
- 由于时间限制紧迫,判定池较浅,突显出判定不完整和评估不确定性。
- 许多主题在不同运行之间的重叠变异很高,某些运行几乎没有共享的前 top 文档。
- NDCG@10 分数显示多个主题达到前 10 的相关性(若干主题最高达到 1.0),这表明各运行之间具有可辨别的能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。