QUICK REVIEW

[論文レビュー] HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization

Xingxing Zhang, Furu Wei|arXiv (Cornell University)|May 16, 2019

Topic Modeling参考文献 42被引用数 51

ひとこと要約

HIBERTはラベルなしデータで階層的な文書エンコーダ（文レベルと文書レベルのトランスフォーマー）を事前学習し、抽出型要約のファインチューニングを行う。CNN/DailyMailとNYT50でROUGEの最先端を達成。オープンドメインとインドメインの2段階の事前学習は、BERTベースのベースラインよりさらに改善をもたらす。

ABSTRACT

Neural extractive summarization models usually employ a hierarchical encoder for document encoding and they are trained using sentence-level labels, which are created heuristically using rule-based methods. Training the hierarchical encoder with these \emph{inaccurate} labels is challenging. Inspired by the recent work on pre-training transformer sentence encoders \cite{devlin:2018:arxiv}, we propose {\sc Hibert} (as shorthand for {\bf HI}erachical {\bf B}idirectional {\bf E}ncoder {\bf R}epresentations from {\bf T}ransformers) for document encoding and a method to pre-train it using unlabeled data. We apply the pre-trained {\sc Hibert} to our summarization model and it outperforms its randomly initialized counterpart by 1.25 ROUGE on the CNN/Dailymail dataset and by 2.0 ROUGE on a version of New York Times dataset. We also achieve the state-of-the-art performance on these two datasets.

研究の動機と目的

文書レベルの階層的エンコーダを事前学習させることにより、抽出型文書要約を改善する動機づけ。
ラベルなしデータ上での Hibert のための教師なしの文書レベル事前学習目的を提案する。
Hibert の事前学習が、事前学習を行っていないベースラインおよび BERT ベースの手法より抽出型要約の性能を向上させることを示す。

提案手法

文を表現する2レベルのトランスフォーマーを用いて文書を表現する。文レベルエンコーダと文書レベルエンコーダが文の表現を操作する。
文の15％をマスキングし、マスクされた文書コンテキストに条件付けられたトランスフォーマーデコーダーでそれらを予測することによって Hibert を事前学習する（文書 Cloze スタイルの目的）。
抽出型要約のファインチューニングを文レベルのラベリングとして行い、Hibert由来の文の表現上での softmax を用いて各文に True/False を予測する。
2 段階の事前学習を用いる：オープンドメイン（GIGA-CM）→インドメイン（CNNDM/NYT50）。
ROUGE-1, ROUGE-2, ROUGE-L を用いて、BERT ベースのモデルを含むさまざまなベースラインと比較評価する。

実験結果

リサーチクエスチョン

RQ1階層的な文書エンコーダを事前学習させると、事前学習なしのエンコーダより抽出型要約の性能が向上するか？
RQ2オープンドメインとインドメインの事前学習の影響はどうか、そして2段階の事前学習は有益か？
RQ3標準的な要約データセットにおいて、Hibert は強力なベースラインおよび BERT とどう比較されるか？

主な発見

Model	R-1	R-2	R-L
Pointer+Coverage	39.53	17.28	36.38
Abstract-ML+RL	39.87	15.82	36.90
DCA	41.69	19.47	37.92
SentRewrite	40.88	17.80	38.54
InconsisLoss	40.68	17.97	37.13
Bottom-Up	41.22	18.68	38.34
Lead3	40.34	17.70	36.57
SummaRuNNer	39.60	16.20	35.30
NeuSum	40.11	17.52	36.39
Refresh	40.00	18.20	36.60
NeuSum-MMR	41.59	19.01	37.98
BanditSum	41.50	18.70	37.60
JECS	41.70	18.50	37.90
LatentSum	41.05	18.77	37.54
HeriTransfomer	41.11	18.69	37.53
BERT	41.82	19.48	38.30
Hibert_S (in-domain)	42.10	19.70	38.53
Hibert_S	42.31	19.87	38.78
Hibert_M	42.37	19.95	38.83

事前学習 Hibert は CNN/DailyMail のイン・ドメインベースラインより ROUGE が +1.25 改善。
2段階の事前学習（オープン・ドメイン＋イン・ドメイン）は、単一段階の事前学習より結果をさらに改善。
Hibert_S と Hibert_M は CNN/DailyMail および NYT50 で全 ROUGE スコアのうち BERT を上回り、Hibert_M が抽出型モデルの中で最良の結果を達成。
CNN/DailyMail では Hibert_M が 42.37 R-1, 19.95 R-2, 38.83 R-L に到達。これに対し BERT は 41.82/19.48/38.30、HeriTransformer は 41.11/18.69/37.53。
NYT50 では Hibert_M（in-domain）が 49.47 R-1, 30.11 R-2, 41.63 R-L に到達。対して BERT は 48.38/29.04/40.53、HeriTransformer は 47.44/28.08/39.56。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。