QUICK REVIEW

[논문 리뷰] Hierarchical Learning for Generation with Long Source Sequences

Tobias Rohde, Xiaoxia Wu|arXiv (Cornell University)|2021. 04. 15.

Topic Modeling참고 문헌 57인용 수 41

한 줄 요약

논문은 긴 소스 시퀀스를 처리하여 생성 작업을 향상시키는 계층적 주의 기반 seq2seq 모델인 HAT(Hierarchical Attention Transformer)를 소개하며, 여러 요약 데이터셋에서 최첨단 ROUGE를 달성하고 문서 수준 번역에서의 향상을 보여준다. 또한 계층적 주의 집중을 분석하고 인코더-전용 사전 학습을 탐구한다.

ABSTRACT

One of the challenges for current sequence to sequence (seq2seq) models is processing long sequences, such as those in summarization and document level machine translation tasks. These tasks require the model to reason at the token level as well as the sentence and paragraph level. We design and study a new Hierarchical Attention Transformer-based architecture (HAT) that outperforms standard Transformers on several sequence to sequence tasks. Furthermore, our model achieves state-of-the-art ROUGE scores on four summarization tasks, including PubMed, arXiv, CNN/DM, SAMSum, and AMI. Our model outperforms document-level machine translation baseline on the WMT20 English to German translation task. We investigate what the hierarchical layers learn by visualizing the hierarchical encoder-decoder attention. Finally, we study hierarchical learning on encoder-only pre-training and analyze its performance on classification tasks.

연구 동기 및 목표

seq2seq 작업(요약 및 문서 수준 번역)에서 긴 소스 시퀀스를 처리하는 도전 과제를 자극하고 해결한다.
계층적 인코더 계층을 통해 문장 수준 표현을 추가하는 Hierarchical Attention Transformer(HAT)를 제안한다.
긴 시퀀스 요약 벤치마크 및 문서 수준 MT에서 최첨단 성능을 보여준다.
계층적 주의 집중이 학습하는 바를 분석하고 분류 작업을 위한 인코더 전용 계층적 사전 학습을 탐구한다.

제안 방법

문장 수준 BOS 토큰에 주의를 기울이는 계층적 인코더로 Transformer를 확장하여 문장 표현을 구축한다.
전처리 시 문장 시작부에 BOS 토큰을 삽입하여 문장 수준의 계층적 주의 집중을 가능하게 한다.
토큰 수준의 인코더 출력과 BOS 기반 문장 표현 모두에 디코더 측 주의를 추가한다.
비계층적 부분에 대해 BART 가중치로 사전학습하고 계층적 구성요소는 임의로 초기화하되 긴 시퀀스 생성 작업에 대해 미세조정한다.
긴 시퀀스 요약(PubMed, arXiv, CNN/DM, XSum, SAMSum, AMI, ISCI) 및 문서 수준 MT(WMT20 En-De, En-Cs, TED17 Zh-En)에서 평가한다.
인코더 전용 계층적 사전 학습을 수행하고 SQuAD 2.0, MNLI-m, RACE에서 평가한다.

실험 결과

연구 질문

RQ1계층적 주의 집중이 소스 시퀀스가 길 때(문서나 다중 문장 입력) 생성 품질을 개선할 수 있는가?
RQ2계층적 인코더가 디코더의 주의 집중과 생성 품질에 어떤 영향을 미치는가?
RQ3인코더 전용 계층적 사전 학습이 길이 입력을 다루는 분류 작업에 도움이 되는가?
RQ4계층적 인코더-디코더 주의 패턴을 시각화하여 어떤 통찰을 얻을 수 있는가?

주요 결과

데이터셋	R1	R2	RL	데이터셋	R1	R2	RL
PubMed	45.97	20.15	41.34	XSum	47.60	24.83	39.64
arXiv	46.32	20.65	42.33	CNN/DM	46.54	18.82	42.00
	Transformer-BART	48.35	21.43	36.90	HAT-BART	46.68	19.07	42.17
	HAT-BART	48.36	21.43	37.00	-	-	-	-

계층적 모델이 PubMed와 arXiv 요약 데이터에서 최첨단 ROUGE를 달성한다.
HAT-BART가 CNN/DailyMail 및 XSum 요약 작업에서 일반 시퀀스-투-시퀀스 베이스라인을 능가한다.
SAMSum 및 AMI/ISCI에서 HAT 변종이 베이스라인 대비 ROUGE 점수에서 경쟁적이거나 개선된 성과를 보여준다.
문서 수준 번역(WMT20 En-De)에서 계층적 모델이 일반 모델보다 우수한 반면 En-Cs 및 Zh-En에서는 얻는 이점이 덜 명확하다.
인코더 전용 계층적 사전 학습은 수렴 속도를 높이고 RACE에서 개선을 가져오며 SQuAD 2.0 및 MNLI-m에서의 결과는 혼합적이다.
계층적 주의 집중은 문장 수준 BOS 임베딩에 대해 층별로 다양한 초점이 존재함을 보여주며, 서로 다른 깊이에서 유용한 문장 수준 표현을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.