[论文解读] WikiHow: A Large Scale Text Summarization Dataset
WikiHow 引入一个大型多样化的文本摘要数据集,包含来自 WikiHow 的超过 200k 条文章-摘要对,支持长序列抽象任务并建立新的基线。
Sequence-to-sequence models have recently gained the state of the art performance in summarization. However, not too many large-scale high-quality datasets are available and almost all the available ones are mainly news articles with specific writing style. Moreover, abstractive human-style systems involving description of the content at a deeper level require data with higher levels of abstraction. In this paper, we present WikiHow, a dataset of more than 230,000 article and summary pairs extracted and constructed from an online knowledge base written by different human authors. The articles span a wide range of topics and therefore represent high diversity styles. We evaluate the performance of the existing methods on WikiHow to present its challenges and set some baselines to further improve it.
研究动机与目标
- 动机:推动需要大规模、多样化的摘要数据,超越新闻文章。
- 介绍 WikiHow,作为一个适合长序列抽象摘要的大型、多主题数据集。
- 定义用于刻画数据集的抽象程度和压缩度的评估指标。
- 在 WikiHow 上提供提取式和抽象式基线,以建立基准参考。
提出的方法
- 使用 Python Scrapy 爬取 WikiHow,在 20+ 分类下收集文章。
- 通过将粗体步骤摘要作为参考,并将剩余步骤描述拼接为文章来构建文章-摘要对。
- 过滤掉摘要不短于文章内容的不可用对,最终得到 204,004 对。
- 通过将参考摘要与文章进行比较(n-gram 独特性)和平均句子长度来定义抽象与压缩度指标。
- 在 WikiHow 和 CNN/Daily Mail 上评估现有的提取式与抽象式基线(TextRank、带注意力的 seq-to-seq、指针生成、带覆盖的指针生成、Lead-3)。
- 以 ROUGE 和 METEOR 作为基线的评估指标。
实验结果
研究问题
- RQ1相较于现有摘要语料库,WikiHow 数据集有多大和多样性如何?
- RQ2相对于 CNN/Daily Mail,WikiHow 的抽象内容水平是多少?
- RQ3标准摘要模型在 WikiHow 上的表现如何,作为长序列抽象任务的基准?
- RQ4压缩比是多少及其对抽象难度的影响?
- RQ5现有基线能否从以新闻为中心的数据集推广到 WikiHow 的知识库文章?
主要发现
- WikiHow 包含 204,004 条文章-摘要对,平均文章长度约为 579.8 词,平均摘要长度约为 62.1 词。
- WikiHow 展现出比 CNN/Daily Mail 更高的压缩比(2.38),表明更大的抽象挑战。
- WikiHow 的抽象程度更高,文章与摘要之间的重叠 n-grams 较少,除了常见的一元组、二元组和三元组。
- 基线(TextRank、带注意力的 seq-to-seq、指针生成、带覆盖的指针生成、Lead-3)在 WikiHow 上的表现不如在 CNN/Daily Mail,凸显 WikiHow 的挑战性、多样化写作风格。
- Lead-3 在 WikiHow 上表现不佳,因为非新闻写作风格,与其在新闻数据集上的强表现形成对比。
- 本文提供基线结果,并强调需要改进的模型以处理长序列、多样化且具抽象性的 WikiHow 内容。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。