[论文解读] ForecastQA: A Question Answering Challenge for Event Forecasting
本文介绍了ForecastQA,一个通过众包收集的、包含10,392个事件预测问题的多项选择题问答数据集,将事件预测问题重新定义为问答任务。使用基于BERT的模型,最佳模型准确率达到61.0%,远低于人类表现,凸显了未来研究中仍存在显著差距。
Event forecasting is a challenging, yet consequential task, as humans seek to constantly plan for the future. Existing automated forecasting approaches rely mostly on structured data, such as time-series or event-based knowledge graphs, to help predict future events. In this work, we formulate the forecasting problem as a restricted-domain, multiple-choice, question-answering (QA) task that simulates the forecasting scenario. To showcase the usefulness of this task formulation, we introduce a dataset ForecastQA, a question-answering dataset consisting of 10,392 event forecasting questions, which have been collected and verified via crowdsourcing efforts. We also present our experiments on ForecastQA using BERT-based models and find that our best model achieves 61.0\% accuracy on the dataset, which is still far behind human performance by about 18%. We hope ForecastQA will support future research efforts in bridging this gap.\footnote{\url{this https URL}}
研究动机与目标
- 通过将事件预测问题重新定义为受限领域、多项选择的问答任务,解决自动化事件预测的挑战。
- 创建一个大规模、经人工验证的事件预测数据集,以支持基准测试和模型开发。
- 评估神经网络模型在预测任务中的表现,并识别当前模型与人类水平推理能力之间的差距。
- 通过提供标准化、可访问的基准,支持未来在提升预测系统方面的研究。
提出的方法
- 将预测问题形式化为多项选择问答任务,基于上下文事件序列生成关于未来事件的问题。
- 通过众包方式收集并验证了包含10,392个事件预测问题的数据集,以确保质量和多样性。
- 在ForecastQA数据集上微调基于BERT的模型,以从多个选项中预测正确的未来事件。
- 模型评估聚焦于在干扰项中正确选择未来事件的准确率,以模拟现实世界的预测场景。
实验结果
研究问题
- RQ1事件预测能否被有效建模为多项选择问答任务?
- RQ2基于BERT的模型在大规模、众包收集的事件预测问答基准上的表现如何?
- RQ3当前最先进的神经网络模型与人类预测者在此任务上的性能差距有多大?
- RQ4ForecastQA数据集在多大程度上支持未来预测模型的有意义基准测试?
主要发现
- 最佳的基于BERT的模型在ForecastQA数据集上达到61.0%的准确率,为未来研究提供了强有力的基线。
- 人类在相同任务上的表现比最佳模型高出约18%,表明在推理和上下文理解方面存在显著差距。
- ForecastQA数据集包含10,392个高质量、众包收集的事件预测问题,可支持对预测模型的稳健评估。
- 基于问答的事件预测形式化方法,为未来研究提供了结构化、可扩展且可解释的基准测试途径。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。