[论文解读] AQuaMuSe: Automatically Generating Datasets for Query-Based Multi-Document Summarization
AQuaMuSe 自动从问答数据和大型网络语料中挖掘 qMDS 示例,创建定向的多文档摘要,生成一个可配置的大型数据集,用于抽象式和提取式 qMDS,包含 5,519 个示例,每个查询平均 6 个源文档。
Summarization is the task of compressing source document(s) into coherent and succinct passages. This is a valuable tool to present users with concise and accurate sketch of the top ranked documents related to their queries. Query-based multi-document summarization (qMDS) addresses this pervasive need, but the research is severely limited due to lack of training and evaluation datasets as existing single-document and multi-document summarization datasets are inadequate in form and scale. We propose a scalable approach called AQuaMuSe to automatically mine qMDS examples from question answering datasets and large document corpora. Our approach is unique in the sense that it can general a dual dataset -- for extractive and abstractive summaries both. We publicly release a specific instance of an AQuaMuSe dataset with 5,519 query-based summaries, each associated with an average of 6 input documents selected from an index of 355M documents from Common Crawl. Extensive evaluation of the dataset along with baseline summarization model experiments are provided.
研究动机与目标
- 阐明需要用于训练和评估的大规模、高质量 qMDS 数据的动机。
- 提出一种可扩展的、自动化的方法,从 QA 数据集和网络语料库构建 qMDS 数据集。
- 提供一个同时具备抽象式和提取式目标的 qMDS 数据集示例。
- 通过人工评估和基线模型实验来展示数据集的质量。
提出的方法
- 使用通用句编码器(Universal Sentence Encoder)对长文答案与网络段落之间的语义相似度进行测量。
- 通过将答案句与大型网络语料库(Common Crawl)进行最近邻匹配,基于相似度阈值挑选候选输入文档。
- 构建一个 Top-K 文档集合(K=7),可调阈值以控制输入的多样性和主题相关性。
- 通过从匹配的段落 R 综合长文答案 a 来创建抽象式 qMDS 示例,使非提取式生成成为可能。
- 通过将匹配的句子就地替换到目标答案中来创建提取式 qMDS 示例。
- 评估数据集属性,包括覆盖度、密度、摘要召回率(上限为 0.75)以及文档质量;并提供基线模型实验。
实验结果
研究问题
- RQ1如何从 QA 数据和网络语料库自动生成大规模的 qMDS 数据集?
- RQ2此类自动生成的数据是否能同时支持抽象式和提取式 qMDS?
- RQ3所得数据集的质量特征(覆盖度、流畅性、相关性)是什么,以及基线模型在其上的表现如何?
- RQ4数据集构建选择(阈值、K)如何影响输入的多样性和相关性?
主要发现
- 作者生成 5,519 个 qMDS 示例(训练 4,555;开发 440;测试 524),每个示例平均 6 个输入文档。
- 数据集使用大型 Common Crawl 基础(355M 页)以及 Google Natural Questions 的一个子集作为目标摘要。
- 在语义正确性任务中,85.18% 的抽象式示例被多数评估为相关。
- 在流畅性方面,经过替换匹配句子的提取式段落中,96.20% 被评估者评价为正面;困惑度仅从 80 提升到 82,提升幅度很小。
- 摘要召回率被限制为 0.75,以确保具有现实挑战性的同时保持对目标摘要的可重构性。
- 基线抽象模型(Hi-MAP、PEGASUS)和提取基线(NeuSum、TextRank)在查询无关和基于查询的条件下进行了评估,以评估潜力和查询条件的影响。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。