[논문 리뷰] HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization
HIBERT는 비라벨 데이터에서 계층적 문서 인코더(문장-및 문서 수준 트랜스포머)를 사전 학습하고 추출적 요약을 위해 미세조정하며, CNN/DailyMail 및 NYT50에서 최첨단 ROUGE를 달성한다. 두 단계의 사전 학습(open-domain 및 in-domain)은 BERT 기반 기준선보다 추가 이득을 제공한다.
Neural extractive summarization models usually employ a hierarchical encoder for document encoding and they are trained using sentence-level labels, which are created heuristically using rule-based methods. Training the hierarchical encoder with these \emph{inaccurate} labels is challenging. Inspired by the recent work on pre-training transformer sentence encoders \cite{devlin:2018:arxiv}, we propose {\sc Hibert} (as shorthand for {\bf HI}erachical {\bf B}idirectional {\bf E}ncoder {\bf R}epresentations from {\bf T}ransformers) for document encoding and a method to pre-train it using unlabeled data. We apply the pre-trained {\sc Hibert} to our summarization model and it outperforms its randomly initialized counterpart by 1.25 ROUGE on the CNN/Dailymail dataset and by 2.0 ROUGE on a version of New York Times dataset. We also achieve the state-of-the-art performance on these two datasets.
연구 동기 및 목표
- 문서 수준의 계층적 인코더를 사전 학습시켜 추출적 문서 요약의 개선을 촉진한다.
- 라벨이 없는 데이터에서 Hibert를 위한 비감독적(document-level) 사전 학습 목표를 제안한다.
- Hibert의 사전 학습이 비사전 학습 베이스라인 및 BERT 기반 방법보다 추출적 요약 성능을 향상시킨다는 것을 보여준다.
제안 방법
- 문서를 두 수준의 Transformer로 표현한다: 문장 수준 인코더와 문장 표현에 기반해 작동하는 문서 수준 인코더.
- 문장의 15%를 마스킹하고 마스킹된 문서 맥락에 조건화된 Transformer 디코더로 예측하는 방식으로 Hibert를 사전 학습한다(문서 Cloze 스타일 목표).
- 추출적 요약을 위한 문장 레이블링으로 미세 조정하며, Hibert 유도 문장 표현에 대한 소프트맥스의 출력으로 각 문장의 True/False를 예측한다.
- 두 단계의 사전 학습을 사용한다: open-domain(GIGA-CM) 이후 in-domain(CNNDM/NYT50).
- ROUGE-1, ROUGE-2, ROUGE-L로 다양한 베이스라인(BERT 기반 모델 포함)과 대조하여 평가한다.
실험 결과
연구 질문
- RQ1계층적 문서 인코더를 사전 학습하면 비사전 학습 인코더보다 추출적 요약 성능이 향상되는가?
- RQ2open-domain과 in-domain 사전 학습의 영향은 무엇이며, 두 단계 사전 학습이 이로운가?
- RQ3표준 요약 데이터셋에서 Hibert가 강력한 베이스라인 및 BERT와 어떻게 비교되는가?
주요 결과
| Model | R-1 | R-2 | R-L |
|---|---|---|---|
| Pointer+Coverage | 39.53 | 17.28 | 36.38 |
| Abstract-ML+RL | 39.87 | 15.82 | 36.90 |
| DCA | 41.69 | 19.47 | 37.92 |
| SentRewrite | 40.88 | 17.80 | 38.54 |
| InconsisLoss | 40.68 | 17.97 | 37.13 |
| Bottom-Up | 41.22 | 18.68 | 38.34 |
| Lead3 | 40.34 | 17.70 | 36.57 |
| SummaRuNNer | 39.60 | 16.20 | 35.30 |
| NeuSum | 40.11 | 17.52 | 36.39 |
| Refresh | 40.00 | 18.20 | 36.60 |
| NeuSum-MMR | 41.59 | 19.01 | 37.98 |
| BanditSum | 41.50 | 18.70 | 37.60 |
| JECS | 41.70 | 18.50 | 37.90 |
| LatentSum | 41.05 | 18.77 | 37.54 |
| HeriTransfomer | 41.11 | 18.69 | 37.53 |
| BERT | 41.82 | 19.48 | 38.30 |
| Hibert_S (in-domain) | 42.10 | 19.70 | 38.53 |
| Hibert_S | 42.31 | 19.87 | 38.78 |
| Hibert_M | 42.37 | 19.95 | 38.83 |
- Hibert를 사전 학습하면 CNN/DailyMail에서 in-domain 베이스라인 대비 ROUGE가 +1.25 향상된다.
- 두 단계 사전 학습(open-domain 플러스 in-domain)이 단일 단계 사전 학습보다 결과를 더 향상시킨다.
- Hibert_S 및 Hibert_M은 CNN/DailyMail 및 NYT50에서 전체 ROUGE 점수에서 BERT를 능가하며, Hibert_M이 테스트된 추출 모델 중 최상의 성능을 달성한다.
- CNN/DailyMail에서 Hibert_M은 42.37 R-1, 19.95 R-2, 38.83 R-L에 도달하며, BERT은 41.82/19.48/38.30, HeriTransformer은 41.11/18.69/37.53이다.
- NYT50에서 Hibert_M(in-domain)은 49.47 R-1, 30.11 R-2, 41.63 R-L에 도달하며, BERT는 48.38/29.04/40.53, HeriTransformer는 47.44/28.08/39.56이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.