[논문 리뷰] ETC: Encoding Long and Structured Inputs in Transformers
이 논문은 전역-국지 주의(global-local attention)를 사용하여 긴 시퀀스로 주의를 확장하고, 상대적 위치 인코딩과 대비 예측 코드(CPC) 사전 훈련 목표를 통해 구조화된 입력을 인코딩하는 새로운 트랜스포머 아키텍처인 확장된 트랜스포머 구축(ETC)을 소개한다. ETC는 핫포트QA, 위키호프, 자연 질문, 오픈KP를 포함한 네 가지 긴 시퀀스 및 구조화된 입력 NLP 벤치마크에서 단일 모델 제출로 최신 기준 성능을 달성한다.
Transformer models have advanced the state of the art in many Natural Language Processing (NLP) tasks. In this paper, we present a new Transformer architecture, Extended Transformer Construction (ETC), that addresses two key challenges of standard Transformer architectures, namely scaling input length and encoding structured inputs. To scale attention to longer inputs, we introduce a novel global-local attention mechanism between global tokens and regular input tokens. We also show that combining global-local attention with relative position encodings and a Contrastive Predictive Coding (CPC) pre-training objective allows ETC to encode structured inputs. We achieve state-of-the-art results on four natural language datasets requiring long and/or structured inputs.
연구 동기 및 목표
- 표준 트랜스포머에서 자기 주의(self-attention)의 제곱형 계산 비용으로 인해 입력 길이가 약 512 토큰으로 제한되는 문제를 해결하기 위해.
- 계층적 문서 조직, 문서 수준의 관계, 마크업 구조와 같은 구조화된 입력의 효과적인 모델링을 가능하게 하기 위해.
- 아키텍처적 혁신과 사전 훈련 전략을 통해 긴 컨텍스트 및 구조화된 입력 NLP 작업의 성능 향상을 위해.
- 더 나은 미세조정 효율성과 성능을 위해 사전 훈련된 BERT/RoBERTa 모델로부터 초기화할 수 있도록 하기 위해.
- 구조화된 입력 모델링과 CPC 사전 훈련이 추론 능력과 긴 컨텍스트 이해 능력을 크게 향상시킨다는 것을 입증하기 위해.
제안 방법
- 입력을 전역 토큰과 장기 토큰으로 분할하여 전역 토큰과 장기 토큰 간의 주의를 제한함으로써 주의 복잡도를 O(n²)에서 O(n)으로 감소시키는 전역-국지 주의 메커니즘을 도입한다.
- 전역 토큰과 장기 토큰 간의 종속성을 모델링하기 위해 상대적 위치 인코딩을 사용하여 전체 주의 없이도 구조화된 입력 모델링을 가능하게 한다.
- 전역 입력 표현을 학습하기 위해 대비 예측 코드(CPC) 사전 훈련 목표를 사용하며, 문장 수준의 마스킹 언어 모델링 작업과 유사하다.
- 훈련 효율성과 성능 향상을 위해 사전 훈련된 RoBERTa 모델에서 가중치 전이를 가능하게 한다.
- 전역 토큰과 장기 토큰 간의 구조적 주의 패턴을 강제하기 위해 하드 g2l(전역-장기) 마스킹을 적용한다.
- 두 시퀀스 입력 형식을 사용한다: 전역 입력(예: 요약 토큰)과 장기 입력(전체 시퀀스)이며, 이들 간에 교차 주의를 수행한다.
실험 결과
연구 질문
- RQ1수정된 트랜스포머 아키텍처가 자기 주의를 긴 시퀀스로 확장하면서도 제곱형 복잡도를 유지할 수 있는가?
- RQ2상대적 위치 인코딩을 사용한 전역-국지 주의가 계층적 및 구조화된 입력 종속성을 얼마나 효과적으로 모델링할 수 있는가?
- RQ3CPC 사전 훈련 목표가 긴 컨텍스트 및 구조화된 입력 NLP 작업의 성능 향상에 기여하는가?
- RQ4RoBERTa에서 초기화하는 것이 긴 입력과 구조화된 입력에서 성능 향상에 얼마나 기여하는가?
- RQ5하드 g2l 마스킹과 평탄한 구조 아블레이션과 같은 아키텍처 선택이 구조화된 데이터셋에서 성능에 미치는 영향은 어떠한가?
주요 결과
- ETC는 평가된 네 가지 데이터셋에서 모두 최신 기준 성능을 달성했다: 핫포트QA(지원 F1: 0.869), 위키호프(정확도: 75.9), 자연 질문(장문 답변), 오픈KP(F1: 0.399), 모두 단일 모델 제출로.
- 앙상블 방법 없이도 ETC는 핫포트QA와 위키호프에서 Longformer-large를 능가했으며, 핫포트QA에서 F1이 0.869, 위키호프에서 정확도가 75.9였다.
- CPC 사전 훈련 작업을 제거하면 핫포트QA의 지원 F1이 0.751에서 0.722로 감소하여, 이 작업이 구조화된 추론에 있어 중요시됨을 입증한다.
- 하드 g2l 마스킹은 핫포트QA에서 성능 향상을 가져왔지만, 위키호프에서는 약간의 성능 저하를 초래하여 데이터셋에 따라 구조적 인도적 편향에 민감함을 보였다.
- RoBERTa 가중치를 초기화에 사용하면 성능 향상이 크게 이루어지며, 특히 오픈KP와 위키호프에서 더 큰 모델과 사전 훈련이 성능 향상에 기여한다.
- 오픈KP에 시각적 특징을 추가하면 성능 향상이 가장 크게 나타났으며, 핵심어 후보들에 대해 최댓값 로짓을 취하는 것도 결과를 추가로 향상시켰다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.