QUICK REVIEW
[论文解读] Analysis of Points of Interests Recommended for Leisure Walk Descriptions
Payal Bajaj, Daniel Campos|arXiv (Cornell University)|Oct 10, 2024
Topic Modeling参考文献 31被引用 1,286
一句话总结
本文介绍了 MS MARCO,这是一个从匿名 Bing 搜索查询中衍生出的大规模真实世界机器阅读理解数据集,包含 100 万个问题、880 万个文本段落和 182,669 个由人类生成的答案。该数据集支持三项基准任务——可回答性预测、答案生成和文本段落排序,表明像 BiDAF 和记忆网络这样的模型表现优异,人类集成模型在新手任务上的 ROUGE-L 得分达到 0.737,凸显了该数据集在评估鲁棒性 MRC 和神经信息检索系统方面的价值。
ABSTRACT
Data for Sub-Task 1 of the Advertisement in Retrieval-Augmented Generation task at Touché 2025. The dataset contains segments retrieved from the segmented version of MS MARCO V2.1. The queries used in retrieval are taken from the Webis Generated Native Ads 2024 dataset.
研究动机与目标
- 通过创建基于真实用户搜索查询而非合成或众包问题的大规模真实世界数据集,以解决现有 MRC 数据集的局限性。
- 通过包含嘈杂的真实文本、相互冲突的信息以及无法回答的问题,提高 MRC 模型的鲁棒性,以反映真实用户的搜索行为。
- 通过提供来自多样化网络文档的上下文段落,支持多段落和多文档推理,使模型能够从多个来源提取并整合信息。
- 为三个不同但相关的 MRC 任务建立基准:可回答性预测、答案生成和段落排序,任务难度逐步递增。
- 提供一个真实的测试环境,用于评估神经信息检索和 MRC 模型,包括其处理未登录词、拼写错误以及在多文档中进行复杂推理的能力。
提出的方法
- 该数据集源自 1,010,916 个匿名 Bing 搜索查询,每个查询均配有 182,669 个由人类生成的答案和从 Bing 检索出的 356 万个网页文档中提取的 8,841,823 个上下文段落。
- 众包编辑基于检索到的段落生成答案,可标记问题为无法回答,并被鼓励生成完整、语法正确的句子。
- 该数据集支持三项任务:(i) 预测可回答性并从上下文段落中提取/合成答案;(ii) 从上下文生成语法正确的答案;(iii) 给定问题对检索到的段落进行排序。
- 基线模型包括类似 DSSM 的段落排序模型、普通的序列到序列模型、带有注意力机制的记忆网络,以及在跨度预测上微调的 BiDAF 模型。
- 评估使用 ROUGE-L 和 BLEU 指标,人类集成基线通过在 1,427 个问题的子集上表现最佳的编辑者建立。
- v2.1 版本数据集包含修订后的评估协议,设有独立的新手机器和中级任务,模型在原始版本和更新版本的数据上均接受评估。
实验结果
研究问题
- RQ1MRC 模型能否在上下文段落信息零散或冲突的情况下,有效识别问题是否可回答?
- RQ2当答案不是简单跨度而是需要信息合成时,神经网络模型在从检索段落中生成流畅、语法正确的答案方面表现如何?
- RQ3在真实用户查询上训练的段落排序模型,在检索复杂问题的相关文档方面是否优于基线模型?
- RQ4与合成或干净数据集相比,包含无法回答的问题和嘈杂真实文本是否显著影响模型的泛化能力和鲁棒性?
- RQ5当从 SQuAD 等合成数据集转向 MS MARCO 等真实世界数据集时,模型性能和评估指标(如 ROUGE-L、BLEU)如何变化?
主要发现
- 人类集成基线在新手任务上的 ROUGE-L 得分为 0.737,在中级任务上为 0.630,显著优于机器模型,表明该基准任务的难度较高。
- 在 MS MARCO 上微调的 BiDAF 模型在原始数据集上的 ROUGE-L 得分为 0.268,但在 v2.1 新手机器任务上降至 0.150,在中级任务上为 0.170,表明更新版本的难度有所提升。
- 最佳段落基线的 ROUGE-L 得分为 0.351,表明即使选择最相关的段落,也难以生成强答案,凸显了信息合成的必要性。
- 段落排序模型的 ROUGE-L 得分为 0.177,显著低于人类基线,表明神经信息检索在 MRC 中仍有较大提升空间。
- 在 Cloze 风格的数值子集上,ReasoNet 在 CNN/Daily Mail 测试集上达到 74.7% 的准确率,在 MS MARCO 子集上为 58.9%,优于 AS Reader,证明注意力机制中动态推理的价值。
- 记忆网络模型在多答案子集上的 BLEU 得分为 0.340,pa-BLEU 为 0.341,表明记忆增强网络能够处理复杂的答案生成任务,但仍低于人类表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。