[論文レビュー] HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization
HIBERTはラベルなしデータで階層的な文書エンコーダ(文レベルと文書レベルのトランスフォーマー)を事前学習し、抽出型要約のファインチューニングを行う。CNN/DailyMailとNYT50でROUGEの最先端を達成。オープンドメインとインドメインの2段階の事前学習は、BERTベースのベースラインよりさらに改善をもたらす。
Neural extractive summarization models usually employ a hierarchical encoder for document encoding and they are trained using sentence-level labels, which are created heuristically using rule-based methods. Training the hierarchical encoder with these \emph{inaccurate} labels is challenging. Inspired by the recent work on pre-training transformer sentence encoders \cite{devlin:2018:arxiv}, we propose {\sc Hibert} (as shorthand for {\bf HI}erachical {\bf B}idirectional {\bf E}ncoder {\bf R}epresentations from {\bf T}ransformers) for document encoding and a method to pre-train it using unlabeled data. We apply the pre-trained {\sc Hibert} to our summarization model and it outperforms its randomly initialized counterpart by 1.25 ROUGE on the CNN/Dailymail dataset and by 2.0 ROUGE on a version of New York Times dataset. We also achieve the state-of-the-art performance on these two datasets.
研究の動機と目的
- 文書レベルの階層的エンコーダを事前学習させることにより、抽出型文書要約を改善する動機づけ。
- ラベルなしデータ上での Hibert のための教師なしの文書レベル事前学習目的を提案する。
- Hibert の事前学習が、事前学習を行っていないベースラインおよび BERT ベースの手法より抽出型要約の性能を向上させることを示す。
提案手法
- 文を表現する2レベルのトランスフォーマーを用いて文書を表現する。文レベルエンコーダと文書レベルエンコーダが文の表現を操作する。
- 文の15%をマスキングし、マスクされた文書コンテキストに条件付けられたトランスフォーマーデコーダーでそれらを予測することによって Hibert を事前学習する(文書 Cloze スタイルの目的)。
- 抽出型要約のファインチューニングを文レベルのラベリングとして行い、Hibert由来の文の表現上での softmax を用いて各文に True/False を予測する。
- 2 段階の事前学習を用いる:オープン ドメイン(GIGA-CM)→イン ドメイン(CNNDM/NYT50)。
- ROUGE-1, ROUGE-2, ROUGE-L を用いて、BERT ベースのモデルを含むさまざまなベースラインと比較評価する。
実験結果
リサーチクエスチョン
- RQ1階層的な文書エンコーダを事前学習させると、事前学習なしのエンコーダより抽出型要約の性能が向上するか?
- RQ2オープンドメインとインドメインの事前学習の影響はどうか、そして2段階の事前学習は有益か?
- RQ3標準的な要約データセットにおいて、Hibert は強力なベースラインおよび BERT とどう比較されるか?
主な発見
| Model | R-1 | R-2 | R-L |
|---|---|---|---|
| Pointer+Coverage | 39.53 | 17.28 | 36.38 |
| Abstract-ML+RL | 39.87 | 15.82 | 36.90 |
| DCA | 41.69 | 19.47 | 37.92 |
| SentRewrite | 40.88 | 17.80 | 38.54 |
| InconsisLoss | 40.68 | 17.97 | 37.13 |
| Bottom-Up | 41.22 | 18.68 | 38.34 |
| Lead3 | 40.34 | 17.70 | 36.57 |
| SummaRuNNer | 39.60 | 16.20 | 35.30 |
| NeuSum | 40.11 | 17.52 | 36.39 |
| Refresh | 40.00 | 18.20 | 36.60 |
| NeuSum-MMR | 41.59 | 19.01 | 37.98 |
| BanditSum | 41.50 | 18.70 | 37.60 |
| JECS | 41.70 | 18.50 | 37.90 |
| LatentSum | 41.05 | 18.77 | 37.54 |
| HeriTransfomer | 41.11 | 18.69 | 37.53 |
| BERT | 41.82 | 19.48 | 38.30 |
| Hibert_S (in-domain) | 42.10 | 19.70 | 38.53 |
| Hibert_S | 42.31 | 19.87 | 38.78 |
| Hibert_M | 42.37 | 19.95 | 38.83 |
- 事前学習 Hibert は CNN/DailyMail のイン・ドメインベースラインより ROUGE が +1.25 改善。
- 2段階の事前学習(オープン・ドメイン+イン・ドメイン)は、単一段階の事前学習より結果をさらに改善。
- Hibert_S と Hibert_M は CNN/DailyMail および NYT50 で全 ROUGE スコアのうち BERT を上回り、Hibert_M が抽出型モデルの中で最良の結果を達成。
- CNN/DailyMail では Hibert_M が 42.37 R-1, 19.95 R-2, 38.83 R-L に到達。これに対し BERT は 41.82/19.48/38.30、HeriTransformer は 41.11/18.69/37.53。
- NYT50 では Hibert_M(in-domain)が 49.47 R-1, 30.11 R-2, 41.63 R-L に到達。対して BERT は 48.38/29.04/40.53、HeriTransformer は 47.44/28.08/39.56。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。