[论文解读] Abstractive Summarization of Reddit Posts with Multi-level Memory Networks
本论文介绍了 Reddit TIFU,这是一个来自 Reddit 的大规模抽象摘要数据集,以及一种新颖的多层级记忆网络(MMN)模型,该模型利用多层级记忆、膨胀卷积和归一化门控 tanh 单元来提升抽象摘要生成。
We address the problem of abstractive summarization in two directions: proposing a novel dataset and a new model. First, we collect Reddit TIFU dataset, consisting of 120K posts from the online discussion forum Reddit. We use such informal crowd-generated posts as text source, in contrast with existing datasets that mostly use formal documents as source such as news articles. Thus, our dataset could less suffer from some biases that key sentences usually locate at the beginning of the text and favorable summary candidates are already inside the text in similar forms. Second, we propose a novel abstractive summarization model named multi-level memory networks (MMN), equipped with multi-level memory to store the information of text from different levels of abstraction. With quantitative evaluation and user studies via Amazon Mechanical Turk, we show the Reddit TIFU dataset is highly abstractive and the MMN outperforms the state-of-the-art summarization models.
研究动机与目标
- 引入一个来自非正式在线文本(Reddit)的大规模抽象摘要数据集(Reddit TIFU)。
- 开发一种新颖的模型(MMN),在多个抽象层级存储信息以提升抽象摘要。
- 在 Reddit TIFU、Newsroom-Abs 和 XSum 数据集上评估 MMN 相对于最先进的抽象摘要模型。
- 评估该数据集的抽象特性以及模型生成高度抽象摘要的能力。
提出的方法
- 创建 Reddit TIFU 数据集,包含来自 Reddit 的 122,933 对 post–summary(TIFU-short 和 TIFU-long)。
- 开发具有单词级、句子级、段落级和文档级记忆的多层级记忆网络(MMN),使用膨胀卷积来写入记忆。
- 在卷积记忆框架中引入带层归一化和权重归一化的归一化门控 tanh 单元(NGTU)。
- 使用类似 WaveNet 的解码器,对整篇文档嵌入进行全局条件化,并对多层级记忆槽进行注意力机制。
- 使用带标签平滑的交叉熵损失对预测进行正则化训练。
- 使用困惑度和 ROUGE 指标进行评估,并进行 Amazon Mechanical Turk (AMT) 用户研究。
实验结果
研究问题
- RQ1相比传统新闻类数据集,Reddit TIFU 是否是一个高度抽象的数据集?
- RQ2MMN 模型是否在 Reddit TIFU、Newsroom-Abs 和 XSum 上超越最先进的抽象摘要方法?
- RQ3多层级记忆表示和膨胀卷积写入是否提高了相对于标准 seq2seq 模型的抽象摘要质量?
- RQ4在总结任务的人类评测中,与基线相比,MMN 的表现如何?
主要发现
- Reddit TIFU 高度抽象,其抽象程度通过低 Ext-Oracle 性能以及摘要内容在源文本中的分布来指示。
- MMN 在 Reddit TIFU 的 ROUGE 和困惑度指标上超过了最先进的抽象模型,覆盖 TIFU-short 和 TIFU-long 数据集。
- 相较于之前的抽象方法,MMN 也在 Newsroom-Abs 和 XSum 上取得了有竞争力或更优的结果。
- 消融研究显示膨胀卷积、多层级记忆以及归一化门控 tanh 单元对 MMN 性能的贡献。
- AMT 用户研究表明人工评估者更偏好 MMN 生成的摘要,相对于若干基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。