[논문 리뷰] Longformer: The Long-Document Transformer
Longformer는 긴 문서의 처리를 가능하게 하는 부분적으로 희박화된 선형 시간 주의(attention) 기법(로컬 윈도우 + 글로벌 토큰)을 도입하고, 문서 단위 NLP 태스크에서의 사전학습과 파인튜닝을 수행하며, 요약과 같은 긴 문서 시퀀스-투-시퀀스 태스크를 위한 인코더-디코더 변형(LED)도 제공합니다.
Transformer-based models are unable to process long sequences due to their self-attention operation, which scales quadratically with the sequence length. To address this limitation, we introduce the Longformer with an attention mechanism that scales linearly with sequence length, making it easy to process documents of thousands of tokens or longer. Longformer's attention mechanism is a drop-in replacement for the standard self-attention and combines a local windowed attention with a task motivated global attention. Following prior work on long-sequence transformers, we evaluate Longformer on character-level language modeling and achieve state-of-the-art results on text8 and enwik8. In contrast to most prior work, we also pretrain Longformer and finetune it on a variety of downstream tasks. Our pretrained Longformer consistently outperforms RoBERTa on long document tasks and sets new state-of-the-art results on WikiHop and TriviaQA. We finally introduce the Longformer-Encoder-Decoder (LED), a Longformer variant for supporting long document generative sequence-to-sequence tasks, and demonstrate its effectiveness on the arXiv summarization dataset.
연구 동기 및 목표
- 표준 자기 주의의 2차 복잡도 병목 현상을 길이가 긴 시퀀스에서 해결한다.
- 로컬 윈도우 기반의 주의 및 글로벌 주의가 결합된 드롭인(attention) 패턴을 제안하여 긴 컨텍스트 모델링을 가능하게 한다.
- RoBERTa와 호환되는 기준선 대비 문서 수준 NLP 태스크에서의 사전학습 및 파인튜닝 이점을 입증한다.
- 긴 문서 시퀀스-투-시퀀스 태스크를 위한 Longformer-Encoder-Decoder(LED)를 소개한다.
- 긴 문서 벤치마크(WikiHop, TriviaQA, arXiv 요약)에서 최첨단 또는 강력한 성능을 보인다.
제안 방법
- Longformer 주의를 슬라이딩 윈도우(로컬) 주의와 태스크 동기적 글로벌 주의의 조합으로 정의한다.
- 선형 시간 메모리 확장을 가진 세 가지 실행 전략(Longformer-loop, Longformer-chunks, Longformer-cuda)을 구현한다.
- RoBERTa 가중치에서 MLM을 이어받아 Longformer를 사전학습하고, 더 긴 시퀀스를 지원하도록 위치 임베딩을 확장한다.
- 글로벌 주의가 태스크 관련 토큰에 주입된 RoBERTa 스타일 프레임워크를 사용하여 문서 수준 태스크(QA, 코어퍼런스, 분류)를 파인튜닝한다.
- 긴 문서 요약을 위한 인코더-디코더 아키텍처에 Longformer 스타일의 주의를 적용한 LED를 개발한다.
- 창 크기(window size), 확장(dilation), 글로벌 주의에 대한 제거/추가를 포함한 다양한 구성에 대한 제거 실험(ablation)을 통해 설계 선택을 검증한다.
실험 결과
연구 질문
- RQ1희소하고 선형 시간의 주의 패턴(로컬 윈도우 + 글로벌 토큰)이 긴 문서에서 전체 자기 주의의 성능과 비슷하거나 더 우수할 수 있는가?
- RQ2Longformer를 사전학습하고 문서 수준 태스크에서 파인튜닝하면 분류, QA 및 코어퍼런스 태스크에서 RoBERTa 기반 기준선보다 성능이 향상되는가?
- RQ3LED를 통해 인코더-디코더 변형으로 긴 문서 시퀀스-투-시퀀스 태스크를 지원할 수 있는가?
- RQ4윈도우 크기, 확장 및 글로벌 주의가 긴 컨텍스트 벤치마크에서의 성능에 어떤 영향을 미치는가?
- RQ5동 시대의 긴 문서 모델들(예: Transformer-XL, Reformer, Sparse Transformer)과 비교할 때 Longformer의 사전학습-파인튜닝 동일 조건에서의 성능은 어떤가?
주요 결과
| 모델 | 데이터셋 | #매개변수 | Dev | Test |
|---|---|---|---|---|
| T12 AlRfou2018CharacterLevelLM | text8 | 44M | - | 1.18 |
| Adaptive Span | text8 | 38M | 1.05 | 1.11 |
| BP-Transformer | text8 | 39M | - | 1.11 |
| Our Longformer | text8 | 41M | 1.04 | 1.10 |
| T12 AlRfou2018CharacterLevelLM | enwik8 | 44M | - | 1.11 |
| Transformer-XL | enwik8 | 41M | - | 1.06 |
| Reformer | enwik8 | - | - | 1.05 |
| Adaptive Span | enwik8 | 39M | 1.04 | 1.02 |
| BP-Transformer | enwik8 | 38M | - | 1.02 |
| Our Longformer | enwik8 | 41M | 1.02 | 1.00 |
- Longformer는 QA, 코어퍼런스, 분류 등 다양한 긴 문서 태스크에서 RoBERTa 기준선보다 일관되게 우수한 성능을 보인다.
- 긴 컨텍스트는 WikiHop, Hyperpartisan 등 긴 컨텍스트 QA 및 문서 수준 데이터셋에서 더 큰 이익을 주는 경향이 있다.
- Longformer-large는 긴 컨텍스트 설정에서 WikiHop 및 TriviaQA에서 최첨단 성능을 달성하고, HotpotQA에서도 경쟁력 있는 성능을 보인다.
- RoBERTa에서의 MLM 사전학습과 위치 임베딩을 4,096 위치로 확장하는 것이 긴 문서 모델링을 효과적으로 가능하게 하며, 복사 초기화 위치 임베딩을 사용할 때 빠른 수렴을 보인다.
- LED는 긴 문서 요약을 위한 인코더-디코더 아키텍처에 Longformer 스타일의 주의를 적용하는 효과를 보여주며(arXiv 데이터셋), 긴 문서 요약에서의 유용성을 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.