[论文解读] HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization
HIBERT 以层级文档编码器(句子级和文档级变换器)在未标注数据上进行预训练,并微调用于抽取式摘要,在 CNN/DailyMail 和 NYT50 上达到最先进的 ROUGE。两阶段预训练(开放域和领域内)相对于基于 BERT 的基线带来进一步提升。
Neural extractive summarization models usually employ a hierarchical encoder for document encoding and they are trained using sentence-level labels, which are created heuristically using rule-based methods. Training the hierarchical encoder with these \emph{inaccurate} labels is challenging. Inspired by the recent work on pre-training transformer sentence encoders \cite{devlin:2018:arxiv}, we propose {\sc Hibert} (as shorthand for {\bf HI}erachical {\bf B}idirectional {\bf E}ncoder {\bf R}epresentations from {\bf T}ransformers) for document encoding and a method to pre-train it using unlabeled data. We apply the pre-trained {\sc Hibert} to our summarization model and it outperforms its randomly initialized counterpart by 1.25 ROUGE on the CNN/Dailymail dataset and by 2.0 ROUGE on a version of New York Times dataset. We also achieve the state-of-the-art performance on these two datasets.
研究动机与目标
- 通过预训练一个文档级层次编码器来提升抽取式文档摘要的性能。
- 提出一个在未标注数据上对 Hibert 的无监督、文档级预训练目标。
- 证明 Hibert 预训练相对于未经预训练的基线和基于 BERT 的方法在抽取式摘要性能上有所提升。
提出的方法
- 用两层 Transformer 表示文档:句子级编码器和在句子表示上运行的文档级编码器。
- 通过屏蔽 15% 的句子并使用一个条件于被屏蔽文档上下文的 Transformer 解码器来预测它们来对 Hibert 进行预训练(文档 Cloze 风格目标)。
- 将抽取式摘要微调为句子标注,使用 Hibert 推导的句子表示对每个句子预测 True/False,采用 softmax。
- 使用两个预训练阶段:开放域(GIGA-CM)然后领域内(CNNDM/NYT50)。
- 用 ROUGE-1、ROUGE-2、ROUGE-L 对比不同基线(包括基于 BERT 的模型)进行评估。
实验结果
研究问题
- RQ1在非预训练编码器相对于预训练前,层级文档编码器是否能提升抽取式摘要性能?
- RQ2开放域预训练与领域内预训练的影响如何,两阶段预训练是否有益?
- RQ3Hibert 与强基线和 BERT 在标准摘要数据集上的表现如何?
主要发现
| 模型 | R-1 | R-2 | R-L |
|---|---|---|---|
| Pointer+Coverage | 39.53 | 17.28 | 36.38 |
| Abstract-ML+RL | 39.87 | 15.82 | 36.90 |
| DCA | 41.69 | 19.47 | 37.92 |
| SentRewrite | 40.88 | 17.80 | 38.54 |
| InconsisLoss | 40.68 | 17.97 | 37.13 |
| Bottom-Up | 41.22 | 18.68 | 38.34 |
| Lead3 | 40.34 | 17.70 | 36.57 |
| SummaRuNNer | 39.60 | 16.20 | 35.30 |
| NeuSum | 40.11 | 17.52 | 36.39 |
| Refresh | 40.00 | 18.20 | 36.60 |
| NeuSum-MMR | 41.59 | 19.01 | 37.98 |
| BanditSum | 41.50 | 18.70 | 37.60 |
| JECS | 41.70 | 18.50 | 37.90 |
| LatentSum | 41.05 | 18.77 | 37.54 |
| HeriTransfomer | 41.11 | 18.69 | 37.53 |
| BERT | 41.82 | 19.48 | 38.30 |
| Hibert_S (in-domain) | 42.10 | 19.70 | 38.53 |
| Hibert_S | 42.31 | 19.87 | 38.78 |
| Hibert_M | 42.37 | 19.95 | 38.83 |
- 对 CNN/DailyMail,预训练 Hibert 相对于领域内基线带来 +1.25 的 ROUGE 提升。
- 两阶段预训练(开放域加领域内)进一步优于单阶段预训练。
- Hibert_S 和 Hibert_M 在 CNN/DailyMail 和 NYT50 的全 ROUGE 分数上均优于 BERT,其中 Hibert_M 在所测试的抽取模型中达到最佳结果。
- 在 CNN/DailyMail,Hibert_M 达到 42.37 R-1, 19.95 R-2, 38.83 R-L,相比 BERT 的 41.82/19.48/38.30,HeriTransformer 的 41.11/18.69/37.53。
- 在 NYT50,Hibert_M(领域内)达到 49.47 R-1, 30.11 R-2, 41.63 R-L,相比 BERT 的 48.38/29.04/40.53,以及 HeriTransformer 的 47.44/28.08/39.56。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。