[논문 리뷰] Rethinking Positional Encoding in Language Pre-training
TUPE 제안 untied positional encoding으로 단어-위치 상관관계를 분리하고 CLS 토큰을 풀어 GLUE 성능을 개선하며 더 빠른 사전 학습을 가능하게 한다.
In this work, we investigate the positional encoding methods used in language pre-training (e.g., BERT) and identify several problems in the existing formulations. First, we show that in the absolute positional encoding, the addition operation applied on positional embeddings and word embeddings brings mixed correlations between the two heterogeneous information resources. It may bring unnecessary randomness in the attention and further limit the expressiveness of the model. Second, we question whether treating the position of the symbol exttt{[CLS]} the same as other words is a reasonable design, considering its special role (the representation of the entire sentence) in the downstream tasks. Motivated from above analysis, we propose a new positional encoding method called extbf{T}ransformer with extbf{U}ntied extbf{P}ositional extbf{E}ncoding (TUPE). In the self-attention module, TUPE computes the word contextual correlation and positional correlation separately with different parameterizations and then adds them together. This design removes the mixed and noisy correlations over heterogeneous embeddings and offers more expressiveness by using different projection matrices. Furthermore, TUPE unties the exttt{[CLS]} symbol from other positions, making it easier to capture information from all positions. Extensive experiments and ablation studies on GLUE benchmark demonstrate the effectiveness of the proposed method. Codes and models are released at https://github.com/guolinke/TUPE.
연구 동기 및 목표
- 언어 사전학습에서 절대/상대 위치 인코딩을 재검토하도록 동기를 부여한다.
- 자체 주의에서 단어–위치 상관관계를 분리하는 새로운 TUPE 방법을 제안한다.
- CLS 기호를 일반 위치로부터 풀어 전역 문장 정보를 더 잘 포착하도록 한다.
- BERT-Base 설정 전반에서 TUPE를 통한 GLUE 벤치마크 개선을 시연한다.
제안 방법
- 자체 주의에서 단어 맥락 상관관계와 위치 상관관계를 서로 다른 투영으로 분리하여 계산한다.
- 단어 임베딩과 절대 위치 임베딩의 입력 수준 덧셈을 주의 내의 별도 상관 용어로 대체한다.
- 학습 가능한 매개변수를 사용해 CLS의 위치 관련 상관을 재설정하여 풀어준다.
- TUPE-A(untied absolute) 및 TUPE-R(untied with relative) 변형을 제공한다.
- 효율성을 위해 계층 간 위치 상관 용어를 공유한다.
- BERT-Base로 GLUE에서 평가하고 부록에서 BERT-Large와 ELECTRA로 분석을 확장한다.
실험 결과
연구 질문
- RQ1풀리고 분리된 단어 및 위치 상관관계가 표준 절대/상대 인코딩과 비교해 트랜스포머 사전학습을 개선할 수 있는가?
- RQ2CLS 기호를 일반 위치에서 풀면 문장 수준 표현이 개선되는가?
- RQ3기존 상대 인코딩과 결합될 때 TUPE-A와 TUPE-R이 상호 보완적 이점을 제공하는가?
- RQ4TUPE가 GLUE 벤치마크 성능과 사전학습 효율성에 미치는 영향은 무엇인가?
주요 결과
- TUPE-A 및 TUPE-R은 GLUE 과제에서 BERT-A 및 BERT-R 기준치를 능가한다.
- TUPE-R은 GLUE 평균 85.04를 달성하고, BERT-R은 83.66으로 약 1.38포인트의 이득이다.
- TUPE-R은 평균적으로 TUPE-A보다 0.57포인트 더 우수하다.
- TUPE-A 및 TUPE-R은 사전학습 중 더 빠르게 수렴하며 약 30%의 사전학습 단계로 더 나은 하류 성능에 도달할 수 있다.
- CLS 해제는 저자원 작업(CoLA, RTE)에서 뚜렷한 이득을 제공하는 반면, 풀린 상관은 고자원 작업(MNLI)에 도움이 된다.
- TUPE는 파라미터를 거의 추가하지 않으며(BERT-Base의 약 1%), 계산 비용도 거의 증가시키지 않으며; 위치 항은 계층 간 재사용 가능하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.