QUICK REVIEW

[论文解读] HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization

Xingxing Zhang, Furu Wei|arXiv (Cornell University)|May 16, 2019

Topic Modeling参考文献 42被引用 51

一句话总结

HIBERT 以层级文档编码器（句子级和文档级变换器）在未标注数据上进行预训练，并微调用于抽取式摘要，在 CNN/DailyMail 和 NYT50 上达到最先进的 ROUGE。两阶段预训练（开放域和领域内）相对于基于 BERT 的基线带来进一步提升。

ABSTRACT

Neural extractive summarization models usually employ a hierarchical encoder for document encoding and they are trained using sentence-level labels, which are created heuristically using rule-based methods. Training the hierarchical encoder with these \emph{inaccurate} labels is challenging. Inspired by the recent work on pre-training transformer sentence encoders \cite{devlin:2018:arxiv}, we propose {\sc Hibert} (as shorthand for {\bf HI}erachical {\bf B}idirectional {\bf E}ncoder {\bf R}epresentations from {\bf T}ransformers) for document encoding and a method to pre-train it using unlabeled data. We apply the pre-trained {\sc Hibert} to our summarization model and it outperforms its randomly initialized counterpart by 1.25 ROUGE on the CNN/Dailymail dataset and by 2.0 ROUGE on a version of New York Times dataset. We also achieve the state-of-the-art performance on these two datasets.

研究动机与目标

通过预训练一个文档级层次编码器来提升抽取式文档摘要的性能。
提出一个在未标注数据上对 Hibert 的无监督、文档级预训练目标。
证明 Hibert 预训练相对于未经预训练的基线和基于 BERT 的方法在抽取式摘要性能上有所提升。

提出的方法

用两层 Transformer 表示文档：句子级编码器和在句子表示上运行的文档级编码器。
通过屏蔽 15% 的句子并使用一个条件于被屏蔽文档上下文的 Transformer 解码器来预测它们来对 Hibert 进行预训练（文档 Cloze 风格目标）。
将抽取式摘要微调为句子标注，使用 Hibert 推导的句子表示对每个句子预测 True/False，采用 softmax。
使用两个预训练阶段：开放域（GIGA-CM）然后领域内（CNNDM/NYT50）。
用 ROUGE-1、ROUGE-2、ROUGE-L 对比不同基线（包括基于 BERT 的模型）进行评估。

实验结果

研究问题

RQ1在非预训练编码器相对于预训练前，层级文档编码器是否能提升抽取式摘要性能？
RQ2开放域预训练与领域内预训练的影响如何，两阶段预训练是否有益？
RQ3Hibert 与强基线和 BERT 在标准摘要数据集上的表现如何？

主要发现

模型	R-1	R-2	R-L
Pointer+Coverage	39.53	17.28	36.38
Abstract-ML+RL	39.87	15.82	36.90
DCA	41.69	19.47	37.92
SentRewrite	40.88	17.80	38.54
InconsisLoss	40.68	17.97	37.13
Bottom-Up	41.22	18.68	38.34
Lead3	40.34	17.70	36.57
SummaRuNNer	39.60	16.20	35.30
NeuSum	40.11	17.52	36.39
Refresh	40.00	18.20	36.60
NeuSum-MMR	41.59	19.01	37.98
BanditSum	41.50	18.70	37.60
JECS	41.70	18.50	37.90
LatentSum	41.05	18.77	37.54
HeriTransfomer	41.11	18.69	37.53
BERT	41.82	19.48	38.30
Hibert_S (in-domain)	42.10	19.70	38.53
Hibert_S	42.31	19.87	38.78
Hibert_M	42.37	19.95	38.83

对 CNN/DailyMail，预训练 Hibert 相对于领域内基线带来 +1.25 的 ROUGE 提升。
两阶段预训练（开放域加领域内）进一步优于单阶段预训练。
Hibert_S 和 Hibert_M 在 CNN/DailyMail 和 NYT50 的全 ROUGE 分数上均优于 BERT，其中 Hibert_M 在所测试的抽取模型中达到最佳结果。
在 CNN/DailyMail，Hibert_M 达到 42.37 R-1, 19.95 R-2, 38.83 R-L，相比 BERT 的 41.82/19.48/38.30，HeriTransformer 的 41.11/18.69/37.53。
在 NYT50，Hibert_M（领域内）达到 49.47 R-1, 30.11 R-2, 41.63 R-L，相比 BERT 的 48.38/29.04/40.53，以及 HeriTransformer 的 47.44/28.08/39.56。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。