Skip to main content
QUICK REVIEW

[論文レビュー] HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization

Xingxing Zhang, Furu Wei|arXiv (Cornell University)|May 16, 2019
Topic Modeling参考文献 42被引用数 51
ひとこと要約

HIBERTはラベルなしデータで階層的な文書エンコーダ(文レベルと文書レベルのトランスフォーマー)を事前学習し、抽出型要約のファインチューニングを行う。CNN/DailyMailとNYT50でROUGEの最先端を達成。オープンドメインとインドメインの2段階の事前学習は、BERTベースのベースラインよりさらに改善をもたらす。

ABSTRACT

Neural extractive summarization models usually employ a hierarchical encoder for document encoding and they are trained using sentence-level labels, which are created heuristically using rule-based methods. Training the hierarchical encoder with these \emph{inaccurate} labels is challenging. Inspired by the recent work on pre-training transformer sentence encoders \cite{devlin:2018:arxiv}, we propose {\sc Hibert} (as shorthand for {\bf HI}erachical {\bf B}idirectional {\bf E}ncoder {\bf R}epresentations from {\bf T}ransformers) for document encoding and a method to pre-train it using unlabeled data. We apply the pre-trained {\sc Hibert} to our summarization model and it outperforms its randomly initialized counterpart by 1.25 ROUGE on the CNN/Dailymail dataset and by 2.0 ROUGE on a version of New York Times dataset. We also achieve the state-of-the-art performance on these two datasets.

研究の動機と目的

  • 文書レベルの階層的エンコーダを事前学習させることにより、抽出型文書要約を改善する動機づけ。
  • ラベルなしデータ上での Hibert のための教師なしの文書レベル事前学習目的を提案する。
  • Hibert の事前学習が、事前学習を行っていないベースラインおよび BERT ベースの手法より抽出型要約の性能を向上させることを示す。

提案手法

  • 文を表現する2レベルのトランスフォーマーを用いて文書を表現する。文レベルエンコーダと文書レベルエンコーダが文の表現を操作する。
  • 文の15%をマスキングし、マスクされた文書コンテキストに条件付けられたトランスフォーマーデコーダーでそれらを予測することによって Hibert を事前学習する(文書 Cloze スタイルの目的)。
  • 抽出型要約のファインチューニングを文レベルのラベリングとして行い、Hibert由来の文の表現上での softmax を用いて各文に True/False を予測する。
  • 2 段階の事前学習を用いる:オープン ドメイン(GIGA-CM)→イン ドメイン(CNNDM/NYT50)。
  • ROUGE-1, ROUGE-2, ROUGE-L を用いて、BERT ベースのモデルを含むさまざまなベースラインと比較評価する。

実験結果

リサーチクエスチョン

  • RQ1階層的な文書エンコーダを事前学習させると、事前学習なしのエンコーダより抽出型要約の性能が向上するか?
  • RQ2オープンドメインとインドメインの事前学習の影響はどうか、そして2段階の事前学習は有益か?
  • RQ3標準的な要約データセットにおいて、Hibert は強力なベースラインおよび BERT とどう比較されるか?

主な発見

ModelR-1R-2R-L
Pointer+Coverage39.5317.2836.38
Abstract-ML+RL39.8715.8236.90
DCA41.6919.4737.92
SentRewrite40.8817.8038.54
InconsisLoss40.6817.9737.13
Bottom-Up41.2218.6838.34
Lead340.3417.7036.57
SummaRuNNer39.6016.2035.30
NeuSum40.1117.5236.39
Refresh40.0018.2036.60
NeuSum-MMR41.5919.0137.98
BanditSum41.5018.7037.60
JECS41.7018.5037.90
LatentSum41.0518.7737.54
HeriTransfomer41.1118.6937.53
BERT41.8219.4838.30
Hibert_S (in-domain)42.1019.7038.53
Hibert_S42.3119.8738.78
Hibert_M42.3719.9538.83
  • 事前学習 Hibert は CNN/DailyMail のイン・ドメインベースラインより ROUGE が +1.25 改善。
  • 2段階の事前学習(オープン・ドメイン+イン・ドメイン)は、単一段階の事前学習より結果をさらに改善。
  • Hibert_S と Hibert_M は CNN/DailyMail および NYT50 で全 ROUGE スコアのうち BERT を上回り、Hibert_M が抽出型モデルの中で最良の結果を達成。
  • CNN/DailyMail では Hibert_M が 42.37 R-1, 19.95 R-2, 38.83 R-L に到達。これに対し BERT は 41.82/19.48/38.30、HeriTransformer は 41.11/18.69/37.53。
  • NYT50 では Hibert_M(in-domain)が 49.47 R-1, 30.11 R-2, 41.63 R-L に到達。対して BERT は 48.38/29.04/40.53、HeriTransformer は 47.44/28.08/39.56。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。