Skip to main content
QUICK REVIEW

[论文解读] NeurIPS 2020 EfficientQA Competition: Systems, Analyses and Lessons Learned

Sewon Min, Jordan Boyd‐Graber|arXiv (Cornell University)|Jan 1, 2021
Topic Modeling参考文献 43被引用 64
一句话总结

关于 NeurIPS 2020 的 EfficientQA 开放领域问答竞赛的全面报道,详细介绍了内存预算系统、它们的检索-阅读器架构、评估(自动和人工评估)以及开放领域问答中的歧义洞察。

ABSTRACT

We review the EfficientQA competition from NeurIPS 2020. The competition focused on open-domain question answering (QA), where systems take natural language questions as input and return natural language answers. The aim of the competition was to build systems that can predict correct answers while also satisfying strict on-disk memory budgets. These memory budgets were designed to encourage contestants to explore the trade-off between storing retrieval corpora or the parameters of learned models. In this report, we describe the motivation and organization of the competition, review the best submissions, and analyze system predictions to inform a discussion of evaluation for open-domain QA.

研究动机与目标

  • 促成并组织一个内存高效的开放领域问答比赛。
  • 对不限 track 与受内存约束的赛道中的顶尖提交进行调研。
  • 用自动指标和人工判断共同评估预测,以在存在歧义时理解正确性。
  • 将系统预测与人类问答专家进行比较,以评估上限和实际性能。

提出的方法

  • 描述竞赛设置、赛道和内存预算。
  • 总结领先参赛系统及其检索-阅读器设计。
  • 介绍一种人工评估方案,以超越严格匹配指标来评估正确性。
  • 分析自动评估与人工评估之间的差距,以及问题歧义效应。

实验结果

研究问题

  • RQ1内存预算如何影响开放领域问答中的检索与推理策略?
  • RQ2在不同内存约束下,哪些检索与阅读架构能带来最佳准确性?
  • RQ3自动精确匹配指标在开放领域问答中对真实答案正确性的反映有多好,人工判断又有何差异?
  • RQ4问题歧义对问答评估和系统排序有何影响?

主要发现

TrackModelAutomatic evalHuman eval - DefinitelyHuman eval - Possibly
UnrestrictedMS UnitedQA54.0065.80 (+21.9%)78.12 (+44.7%)
UnrestrictedFB Hybrid53.8967.38 (+25.0%)79.88 (+48.2%)
6GiBFB system53.3365.18 (+22.2%)76.09 (+42.7%)
6GiBOusia-Tohoku Soseki50.1762.01 (+23.6%)73.83 (+47.2%)
6GiBBUT R2-D247.2858.96 (+24.7%)70.33 (+49.2%)
500MiBNAVER RDR32.0642.23 (+31.7%)54.95 (+71.4%)
500MiBUCLNLP-FB system (29M)33.4439.40 (+17.8%)47.37 (+41.7%)
25% smallestUCLNLP-FB system (29M)26.7832.45 (+21.2%)41.21 (+53.9%)
  • 跨赛道的顶尖提交在准确性上显著超过基线,幅度约高出 ~20%,利用检索增强生成和压缩技术。
  • 不限与 6GiB 赛道表现接近,表明强压缩和裁剪可以维持准确性。
  • 自动评估对语义等价或依上下文的答案的正确性估计不足;人工评估显示显著提升(最多 ~25% 的更高准确性,当考虑看似正确的答案时,甚至达到 ~54%)。
  • 开放领域问题的歧义性和时序性显著影响评估和排序;人工评审之间的一致性处于中等水平,取决于对正确性的定义。
  • 采用多样化检索策略的系统(如结合密集检索、生成性扩增和数据增强)往往产生互补错误,提升集成潜力。
  • 内存高效系统(500MiB、25% 最小)通过大幅裁剪语料和模型/嵌入压缩可实现具竞争力的准确性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。