Skip to main content
QUICK REVIEW

[论文解读] Text Summarization using Abstract Meaning Representation

Shibhansh Dohare, Harish Karnick|arXiv (Cornell University)|Jun 6, 2017
Topic Modeling参考文献 16被引用 44
一句话总结

本文提出了一种新颖的、完整的抽象文本摘要生成流水线,基于抽象意义表示(AMR),其中输入故事首先被转换为AMR图,然后从关键句子中提取多个与摘要相关的子图,再生成流畅的摘要句子。该方法在基于AMR的摘要任务中取得了最先进性能,优于单子图提取方法,并揭示了现有评估指标(如ROUGE)在评估抽象摘要时存在的严重缺陷。

ABSTRACT

With an ever increasing size of text present on the Internet, automatic summary generation remains an important problem for natural language understanding. In this work we explore a novel full-fledged pipeline for text summarization with an intermediate step of Abstract Meaning Representation (AMR). The pipeline proposed by us first generates an AMR graph of an input story, through which it extracts a summary graph and finally, generate summary sentences from this summary graph. Our proposed method achieves state-of-the-art results compared to the other text summarization routines based on AMR. We also point out some significant problems in the existing evaluation methods, which make them unsuitable for evaluating summary quality.

研究动机与目标

  • 开发一种基于抽象意义表示(AMR)的完整端到端抽象文本摘要生成流水线。
  • 通过提出从显著句子中提取多个聚焦摘要图的方法,解决单子图提取的局限性。
  • 挑战现有评估指标(如ROUGE)在评估抽象摘要质量方面的有效性。
  • 揭示当前数据集(如CNN-DailyMail)在支持真正抽象摘要生成方面的不足。
  • 为未来基于AMR的抽象摘要研究建立一个强有力的基线。

提出的方法

  • 流水线首先使用AMR解析器(如JAMR)将输入故事解析为AMR图。
  • 从故事中识别出一组少量关键句子,这些句子包含最显著的摘要信息。
  • 从每个选定句子中,从完整AMR图中提取一个子图,形成与摘要相关的AMR子图。
  • 将多个此类子图组合,形成一个综合摘要图,以捕捉故事中多样化的信息。
  • 使用神经AMR到文本生成器将最终摘要图转换为流畅、自然的摘要句子。
  • 该方法避免依赖单一子图,从而实现对故事中分散信息的更好覆盖。

实验结果

研究问题

  • RQ1与单子图提取相比,多步骤基于AMR的流水线是否能提升抽象摘要生成性能?
  • RQ2在CNN-DailyMail数据集上,基于AMR的摘要生成性能与抽取式基线方法(如Lead-3和SummaRunNer)相比如何?
  • RQ3标准评估指标(如ROUGE)在多大程度上能准确反映基于AMR生成的抽象摘要的质量?
  • RQ4为何CNN-DailyMail数据集在评估真正抽象摘要系统时存在问题?
  • RQ5通过聚类相似句子并从其组合的AMR表示中提取摘要图,能否提升摘要质量?

主要发现

  • 所提方法在基于AMR的文本摘要任务中取得了最先进性能,优于先前的单子图提取方法。
  • 从非匿名版本的Lead-3到Lead-3-AMR的性能下降显著,主要归因于AMR解析和生成中的错误。
  • 发现ROUGE不适用于评估基于AMR生成的抽象摘要,因为它无法评估语义重构和意义保留。
  • CNN-DailyMail数据集存在问题,因为大多数摘要内容是抽取式的,且集中在前几句话,限制了对抽象能力的评估。
  • 该方法表明,从多个句子而非单个句子中提取摘要图,能带来更好的信息覆盖和摘要质量。
  • 本研究呼吁开发一个关键信息分布更均匀、摘要更真正抽象的新数据集,以实现对未来抽象模型的公平评估。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。