QUICK REVIEW

[论文解读] AQuaMuSe: Automatically Generating Datasets for Query-Based Multi-Document Summarization

Sayali Kulkarni, Sheide Chammas|arXiv (Cornell University)|Oct 23, 2020

Topic Modeling参考文献 34被引用 33

一句话总结

AQuaMuSe 自动从问答数据和大型网络语料中挖掘 qMDS 示例，创建定向的多文档摘要，生成一个可配置的大型数据集，用于抽象式和提取式 qMDS，包含 5,519 个示例，每个查询平均 6 个源文档。

ABSTRACT

Summarization is the task of compressing source document(s) into coherent and succinct passages. This is a valuable tool to present users with concise and accurate sketch of the top ranked documents related to their queries. Query-based multi-document summarization (qMDS) addresses this pervasive need, but the research is severely limited due to lack of training and evaluation datasets as existing single-document and multi-document summarization datasets are inadequate in form and scale. We propose a scalable approach called AQuaMuSe to automatically mine qMDS examples from question answering datasets and large document corpora. Our approach is unique in the sense that it can general a dual dataset -- for extractive and abstractive summaries both. We publicly release a specific instance of an AQuaMuSe dataset with 5,519 query-based summaries, each associated with an average of 6 input documents selected from an index of 355M documents from Common Crawl. Extensive evaluation of the dataset along with baseline summarization model experiments are provided.

研究动机与目标

阐明需要用于训练和评估的大规模、高质量 qMDS 数据的动机。
提出一种可扩展的、自动化的方法，从 QA 数据集和网络语料库构建 qMDS 数据集。
提供一个同时具备抽象式和提取式目标的 qMDS 数据集示例。
通过人工评估和基线模型实验来展示数据集的质量。

提出的方法

使用通用句编码器（Universal Sentence Encoder）对长文答案与网络段落之间的语义相似度进行测量。
通过将答案句与大型网络语料库（Common Crawl）进行最近邻匹配，基于相似度阈值挑选候选输入文档。
构建一个 Top-K 文档集合（K=7），可调阈值以控制输入的多样性和主题相关性。
通过从匹配的段落 R 综合长文答案 a 来创建抽象式 qMDS 示例，使非提取式生成成为可能。
通过将匹配的句子就地替换到目标答案中来创建提取式 qMDS 示例。
评估数据集属性，包括覆盖度、密度、摘要召回率（上限为 0.75）以及文档质量；并提供基线模型实验。

实验结果

研究问题

RQ1如何从 QA 数据和网络语料库自动生成大规模的 qMDS 数据集？
RQ2此类自动生成的数据是否能同时支持抽象式和提取式 qMDS？
RQ3所得数据集的质量特征（覆盖度、流畅性、相关性）是什么，以及基线模型在其上的表现如何？
RQ4数据集构建选择（阈值、K）如何影响输入的多样性和相关性？

主要发现

作者生成 5,519 个 qMDS 示例（训练 4,555；开发 440；测试 524），每个示例平均 6 个输入文档。
数据集使用大型 Common Crawl 基础（355M 页）以及 Google Natural Questions 的一个子集作为目标摘要。
在语义正确性任务中，85.18% 的抽象式示例被多数评估为相关。
在流畅性方面，经过替换匹配句子的提取式段落中，96.20% 被评估者评价为正面；困惑度仅从 80 提升到 82，提升幅度很小。
摘要召回率被限制为 0.75，以确保具有现实挑战性的同时保持对目标摘要的可重构性。
基线抽象模型（Hi-MAP、PEGASUS）和提取基线（NeuSum、TextRank）在查询无关和基于查询的条件下进行了评估，以评估潜力和查询条件的影响。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。