[论文解读] A Dataset for Answering Time-Sensitive Questions
本文提出了TimeQA,一个用于回答时间敏感问题的新基准数据集,通过从Wikidata挖掘随时间演变的事实,经由众包工作者验证,并生成多样化的问题-答案对。尽管最先进的模型如FiD在困难版本上的准确率仅为46%,而人类表现达到87%,揭示了当前NLP模型在时间推理能力方面存在显著差距。
Time is an important dimension in our physical world. Lots of facts can evolve with respect to time. For example, the U.S. President might change every four years. Therefore, it is important to consider the time dimension and empower the existing QA models to reason over time. However, the existing QA datasets contain rather few time-sensitive questions, hence not suitable for diagnosing or benchmarking the model's temporal reasoning capability. In order to promote research in this direction, we propose to construct a time-sensitive QA dataset. The dataset is constructed by 1) mining time-evolving facts from WikiData and aligning them to their corresponding Wikipedia page, 2) employing crowd workers to verify and calibrate these noisy facts, 3) generating question-answer pairs based on the annotated time-sensitive facts. Our dataset poses challenges in the aspect of both temporal understanding and temporal reasoning. We evaluate different SoTA long-document QA systems like BigBird and FiD on our dataset. The best-performing model FiD can only achieve 46\% accuracy, still far behind the human performance of 87\%. We demonstrate that these models are still lacking the ability to perform consistent temporal reasoning. Therefore, we believe that our dataset could serve as a benchmark to develop NLP models more sensitive to temporal shifts. The dataset and code are released in~\url{https://github.com/wenhuchen/Time-Sensitive-QA}.
研究动机与目标
- 解决现有问答基准中缺乏专注于时间敏感问题的数据集的问题。
- 创建一个真实且具有挑战性的基准,用于测试长文本中的时间理解与推理能力。
- 评估当前最先进问答模型在处理时间变化和演变事实方面的局限性。
- 通过提供具有明确时间边界的多样时间表达的数据集,推动时间推理研究。
提出的方法
- 从Wikidata挖掘随时间演变的事实,并将其与相应的Wikipedia段落对齐。
- 利用众包工作者验证并校准噪声事实,确保时间边界的准确性。
- 基于标注的时间敏感事实,使用多样化模板生成问题-答案对。
- 根据所需时间推理的复杂度,创建两个版本——简单版和困难版。
- 设计困难版以强调隐式时间提及和多步推理。
- 公开发布数据集和代码,以支持可复现性与进一步研究。
实验结果
研究问题
- RQ1现有最先进问答模型能否准确回答需要对时间区间进行推理的时间敏感问题?
- RQ2模型在涉及隐式时间表达的问题(例如“在战争期间”或“一年后”)上的表现如何?
- RQ3当事实的终止时间未明确说明时,当前模型在推断其结束时间方面失败的程度有多大?
- RQ4与人类表现相比,时间推理的难度如何影响模型性能?
- RQ5所提出的数据集能否有效诊断不同NLP架构在时间推理方面的不足?
主要发现
- 表现最佳的模型FiD在TimeQA困难版本上的准确率仅为46%,远低于人类表现。
- 人类在困难版本上的表现达到87%,表明在时间推理能力方面存在巨大差距。
- 从简单版到困难版,性能从60%下降至45%,凸显了隐式时间推理的挑战。
- 现有模型在时间常识推理方面表现不佳,例如从事件转换中推断结束时间。
- 该数据集表明,当前模型对隐式时间表达不具鲁棒性,亟需更好地整合时间知识。
- 结果表明,当前的长文档问答系统尚无法在自然语言中对随时间演变的事实实现一致的时间推理。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。