Skip to main content
QUICK REVIEW

[论文解读] Exploring Domain Shift in Extractive Text Summarization

Danqing Wang, Pengfei Liu|arXiv (Cornell University)|Aug 30, 2019
Topic Modeling参考文献 41被引用 38
一句话总结

本文将领域定义为文章出版物,构建多领域 SUM 数据集(MULTI-SUM)以研究抽取式摘要中的领域迁移,并分析四种学习策略(包括元学习)在跨领域泛化中的效果。

ABSTRACT

Although domain shift has been well explored in many NLP applications, it still has received little attention in the domain of extractive text summarization. As a result, the model is under-utilizing the nature of the training data due to ignoring the difference in the distribution of training sets and shows poor generalization on the unseen domain. With the above limitation in mind, in this paper, we first extend the conventional definition of the domain from categories into data sources for the text summarization task. Then we re-purpose a multi-domain summarization dataset and verify how the gap between different domains influences the performance of neural summarization models. Furthermore, we investigate four learning strategies and examine their abilities to deal with the domain shift problem. Experimental results on three different settings show their different characteristics in our new testbed. Our source code including extit{BERT-based}, extit{meta-learning} methods for multi-domain summarization learning and the re-purposed dataset extsc{Multi-SUM} will be available on our project: \url{http://pfliu.com/TransferSum/}.

研究动机与目标

  • 将领域概念从类别扩展到用于摘要的数据源(出版源),以研究领域之间的分布差距。
  • 重新利用 MULTI-SUM 数据集,创建一个具有领域内与领域外设置的多领域测试平台。
  • 评估不同学习策略如何应对抽取式摘要中的领域迁移,并为多领域学习提供实际指导。

提出的方法

  • 将抽取式摘要建模为使用 CNN 句子编码器和 Transformer 文档编码器的句子标注(CNN-Transformer)。
  • 定义用于多领域摘要的四种学习策略:(I)基本的多领域训练,(II)用于多领域学习的 BERT 增强预训练,(III)通过域标签嵌入使模型具有领域感知,(IV)元学习以对齐跨领域的梯度更新。
  • 以方程形式将领域迁移缓解正式化:L^(k)_I = L(Basic(S^(k), θ^(s)), Y^(k)); L^(k)_III = L(Basic(S^(k), C^(k), θ^(s)), Y^(k)); L^(k)_IV = γ L^(k) + (1-γ) ∑_{j≠k} L^{k←j}, with γ ∈ [0,1].
  • 通过从 Newsroom 选取前十篇出版物并分割为训练/测试域来创建 MULTI-SUM;在域内、域外以及跨数据集迁移(CNN/DM)中进行评估。
  • 与基线和先前模型使用 ROUGE 指标进行比较,以评估域迁移性能。

实验结果

研究问题

  • RQ1领域外未见出版物的迁移如何影响抽取式摘要的性能?
  • RQ2领域感知或元学习方法是否比单一模型更能在出版物和数据集之间实现泛化?
  • RQ3预训练模型(如 BERT)对多领域摘要和跨领域迁移有何影响?
  • RQ4在抽取式摘要的域内 vs 域外 vs 跨数据集设置中,领域迁移如何表现?

主要发现

  • 领域迁移在抽取式摘要中具有显著影响:在一个出版物上训练的模型在未见出版物上表现不佳。
  • 使用域标签的领域感知建模相较于纯粹的多领域模型,在域内和域外的 ROUGE 表现有所提升。
  • 元学习(模型 IV)在跨领域泛化上表现最佳,在领域内性能提升较小但在未见域上提升显著。
  • 预训练的 BERT 提供强大的特征提取,在 MULTI-SUM 内有帮助,但在跨领域迁移中可能不如领域感知或元学习策略。
  • 在 CNN/DailyMail 上,出版物标签结合 BERT 在所测试的配置中表现最佳,表明数据集特定的领域信号很重要。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。