Skip to main content
QUICK REVIEW

[论文解读] BERT Fine-tuning For Arabic Text Summarization

Khalid N. Elmadani, Mukhtar Elgezouli|arXiv (Cornell University)|Mar 29, 2020
Topic Modeling参考文献 6被引用 24
一句话总结

该论文提出了首个使用微调多语言 BERT(M-BERT)的有文档记录的抽象型阿拉伯语文本摘要模型,在低资源阿拉伯语摘要任务中表现强劲。结果表明,M-BERT 显著提升了小规模阿拉伯语数据集上的抽取式与抽象式摘要性能,优于非预训练的 Transformer 模型,并为低资源环境下阿拉伯语自然语言处理建立了新基准。

ABSTRACT

Fine-tuning a pretrained BERT model is the state of the art method for extractive/abstractive text summarization, in this paper we showcase how this fine-tuning method can be applied to the Arabic language to both construct the first documented model for abstractive Arabic text summarization and show its performance in Arabic extractive summarization. Our model works with multilingual BERT (as Arabic language does not have a pretrained BERT of its own). We show its performance in English corpus first before applying it to Arabic corpora in both extractive and abstractive tasks.

研究动机与目标

  • 开发首个基于预训练 Transformer 架构的抽象型阿拉伯语文本摘要模型。
  • 评估多语言 BERT(M-BERT)在低资源阿拉伯语文本摘要任务中的有效性。
  • 将微调后的 M-BERT 与非预训练的 Transformer 及单语 BERT 在抽取式与抽象式摘要中进行比较。
  • 利用现有的小规模阿拉伯语语料库(如 KALIMAT 和 EASC)建立阿拉伯语文本摘要的基准。
  • 通过利用 M-BERT 的迁移学习,缓解阿拉伯语 NLP 资源稀缺的问题。

提出的方法

  • 使用微调后的多语言 BERT(M-BERT)作为抽取式与抽象式摘要任务的编码器。
  • 采用 BertSum 架构:在多个句子中添加 [CLS] 标记和区间分割嵌入以表示。
  • 对于抽象式摘要,随机初始化了一个 6 层 Transformer 解码器,并与编码器端到端联合训练。
  • 对于抽取式摘要,在每个 [CLS] 标记之上添加一个 Sigmoid 分类器,以预测句子是否应包含在摘要中。
  • 在 CNN/DailyMail(英文)和 KALIMAT(阿拉伯语)数据集上进行模型训练,并使用 ROUGE 进行评估。
  • 采用专门的微调策略,为编码器和解码器分别使用独立的优化器,以稳定训练过程。

实验结果

研究问题

  • RQ1多语言 BERT 是否能在低资源阿拉伯语文本摘要任务中有效迁移至抽象式与抽取式摘要?
  • RQ2M-BERT 在阿拉伯语文本摘要中与单语 BERT 及非预训练 Transformer 相比表现如何?
  • RQ3在小规模阿拉伯语摘要数据集上,基于多语言数据的预训练是否能提升性能?
  • RQ4抽取式与抽象式模型在阿拉伯语文本摘要任务中的性能差距如何?
  • RQ5一个单一的 M-BERT 模型是否能在无需专用阿拉伯语 BERT 的情况下,同时在抽取式与抽象式摘要中取得具有竞争力的结果?

主要发现

  • 在 CNN/DailyMail 英文测试集上,M-BERT 达到 ROUGE-1 为 30.35,ROUGE-2 为 11.33,ROUGE-L 为 25.3,与单语 BERT 的表现非常接近。
  • 在 KALIMAT 阿拉伯语数据集上,微调后的 BertSumExt 模型达到 42.02 的 ROUGE-1 F1 分数,显著优于非预训练的 TransformerExt(28.75)。
  • 抽象式模型(BertSumAbs)在 KALIMAT 上达到 12.21 的 ROUGE-1 F1 分数,证明了在数据有限的情况下,阿拉伯语抽象式摘要的可行性。
  • 预训练的 M-BERT 在抽取式与抽象式任务中均显著优于非预训练的 Transformer,证实了迁移学习在低资源阿拉伯语 NLP 中的价值。
  • 如预期,抽取式模型在抽取式数据集上始终优于其抽象式对应模型,但抽象式模型仍取得了有意义的性能表现。
  • 本研究建立了首个有文档记录的抽象型阿拉伯语文本摘要模型,填补了阿拉伯语 NLP 研究中的关键空白。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。