Skip to main content
QUICK REVIEW

[논문 리뷰] XLNet: Generalized Autoregressive Pretraining for Language Understanding

Zhilin Yang|arXiv (Cornell University)|2019. 06. 19.
Topic Modeling참고 문헌 41인용 수 1,857
한 줄 요약

XLNet은 순열 기반 자동회귀 사전학습과 두 흐름 어텐션을 도입하여 양방향 컨텍스트를 포착하고, 프리트레인-파인튜닝 불일치 없이 다양한 NLP 태스크에서 BERT와 RoBERTa를 능가한다.

ABSTRACT

With the capability of modeling bidirectional contexts, denoising autoencoding based pretraining like BERT achieves better performance than pretraining approaches based on autoregressive language modeling. However, relying on corrupting the input with masks, BERT neglects dependency between the masked positions and suffers from a pretrain-finetune discrepancy. In light of these pros and cons, we propose XLNet, a generalized autoregressive pretraining method that (1) enables learning bidirectional contexts by maximizing the expected likelihood over all permutations of the factorization order and (2) overcomes the limitations of BERT thanks to its autoregressive formulation. Furthermore, XLNet integrates ideas from Transformer-XL, the state-of-the-art autoregressive model, into pretraining. Empirically, under comparable experiment settings, XLNet outperforms BERT on 20 tasks, often by a large margin, including question answering, natural language inference, sentiment analysis, and document ranking.

연구 동기 및 목표

  • 양방향 언어 이해를 위한 autoregressive(AR)와 autoencoding(AE) 사전학습 스킴의 한계와 문제를 동기화하고 해결한다.
  • AR의 이점을 양방향 컨텍스트와 결합한 통합 사전학습 목표를 제안한다.
  • 더 긴 컨텍스트를 처리하고 학습 효율성을 높이기 위해 Transformer-XL의 특징을 도입한다.
  • 순열 기반 사전학습에 호환되는 타깃 의존적 두 스트림 어텐션 메커니즘을 개발한다.

제안 방법

  • 순열 언어 모델링 정의: 시퀀스의 모든 분해 순서에 걸친 기대 로그 가능도(log-likelihood)를 최대화한다.
  • 콘텐츠 스트림과 타깃 의존 쿼리 스트림으로 구성된 두-스트림 셀프 어텐션을 도입하여 타깃 특화 예측을 생성한다.
  • 주어진 순열에서 토큰의 부분 집합을 예측하여 최적화를 용이하게 하는 부분 예측 objective를 계산한다.
  • Transformer-XL 스타일의 상대적 세그먼트 인코딩과 재귀를 도입하여 긴 컨텍스트를 모델링한다.
  • 메모리를 이용해 다중 세그먼트를 모델링하여 더 긴 입력과 Q&A, 문서 랭킹과 같은 태스크를 처리한다.
  • 512의 시퀀스 길이로 대규모 다국어 영어 코퍼스에서 학습하고 BERT-스타일 베이스라인과 공정하게 비교한다.

실험 결과

연구 질문

  • RQ1순열 기반 자동회귀 사전학습이 양방향 컨텍스트를 효과적으로 학습할 수 있는가?
  • RQ2입력 손상 제거(마스킹 없음)가 프리트레인-파인튜닝 불일치를 피하면서 성능을 유지할 수 있는가?
  • RQ3Transformer-XL 구성요소(상대 인코딩 및 재귀)가 XLNet의 긴 컨텍스트 처리 능력을 향상시키는가?
  • RQ4순열 팩터라이제이션 하에서 타깃 의존 토큰 예측에 두 스트림 어텐션 메커니즘이 필요할까?

주요 결과

  • XLNet은 GLUE, SQuAD, RACE, 문서 랭킹을 포함한 광범위한 태스크에서 비슷한 조건 하에 BERT보다 성능이 우수하다.
  • 긴 컨텍스트가 필요한 태스크에서 성능 향상이 특히 두드러진다(예: SQuAD, RACE).
  • 고찰에서 Transformer-XL과 순열 언어 모델링이 모두 BERT 대비 향상에 기여하며; 메모리, 스팬 기반 예측, 양방향 데이터 파이프라인도 성능을 향상시킨다.
  • BERT의 다음 문장 예측(next-sentence prediction) 목표는 XLNet에 일관되게 도움이 되지 않으며 XLNet 변형에서는 사용되지 않는다.
  • XLNet은 여러 독해 및 GLUE 벤치마크에서 RoBERTa에 비해 경쟁력 있거나 우수한 성과를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.