Skip to main content
QUICK REVIEW

[논문 리뷰] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Zhenzhong Lan, Mingda Chen|arXiv (Cornell University)|2019. 09. 26.
Topic Modeling참고 문헌 49인용 수 4,061
한 줄 요약

ALBERT는 매개변수 감소 기법(인자분해 임베딩과 교차-레이어 공유)과 문장 순서 예측 손실을 도입해 작고도 더 강력한 언어 모델을 만들고, BERT-large보다 적은 매개변수로 GLUE, SQuAD, RACE에서 최첨단 성능을 달성한다.

ABSTRACT

Increasing model size when pretraining natural language representations often results in improved performance on downstream tasks. However, at some point further model increases become harder due to GPU/TPU memory limitations and longer training times. To address these problems, we present two parameter-reduction techniques to lower memory consumption and increase the training speed of BERT. Comprehensive empirical evidence shows that our proposed methods lead to models that scale much better compared to the original BERT. We also use a self-supervised loss that focuses on modeling inter-sentence coherence, and show it consistently helps downstream tasks with multi-sentence inputs. As a result, our best model establishes new state-of-the-art results on the GLUE, RACE, and \\squad benchmarks while having fewer parameters compared to BERT-large. The code and the pretrained models are available at https://github.com/google-research/ALBERT.

연구 동기 및 목표

  • 대규모 사전 학습 언어 모델의 메모리 및 학습 속도 이슈를 성능 손실 없이 완화한다.
  • 매개변수 수를 현저히 줄이면서도 정확도를 유지하거나 향상시키기 위한 매개변수 감소 기술을 제안한다.
  • 문장 간 일관성 모델링을 강화하기 위한 자기-supervised 문장 순서 예측(SOP) 손실을 도입한다.

제안 방법

  • 어휘 임베딩을 숨김 크기와 분리하는 인자화 임베딩 매개변수화로 임베딩 매개변수를 O(V×H)에서 O(V×E+E×H)로 축소한다.
  • 모든 트랜스포머 층이 매개변수를 공유하는 교차-레이어 공유로 깊이 관련 매개변수 증가를 줄인다.
  • 다음 문장 예측이 아닌 문장 간 일관성에 초점을 맞춘 문장 순서 예측(SOP) 손실을 도입한다.
  • BookCorpus와 English Wikipedia에서 MLM과 SOP 손실로 ALBERT를 사전 학습하되 30k 어휘와 512 길이 입력을 사용한다.
  • GLUE, SQuAD, RACE에서 미세조정으로 평가하고, 정렬된 설정 하에서 BERT 및 다른 기준선과 비교한다.

실험 결과

연구 질문

  • RQ1ALBERT가 BERT보다 훨씬 적은 매개변수로 유사하거나 더 나은 성능을 달성할 수 있는가?
  • RQ2교차-레이어 매개변수 공유와 인자화 임베딩이 성능 및 학습 효율성에 의미 있게 영향을 미치는가?
  • RQ3코헤런스 중심의 사전 학습 목표(SOP)가 NSP/다른 목표보다 다운스트림 작업에 더 유익한가?
  • RQ4모델 크기, 학습 속도, 정확도 간의 트레이드오프가 주요 NLU 벤치마크에서 어떻게 나타나는가?

주요 결과

  • ALBERT는 BERT-large 대비 최대 18배 적은 매개변수(ALBERT-xxlarge 235M vs BERT-large 334M)로도 여러 과제에서 우수한 성능을 달성한다.
  • ALBERT는 다운스트림에서 상당한 이점을 보인다: SQuAD v1.1 +1.9, SQuAD v2.0 +3.1, MNLI +1.4, SST-2 +2.2, RACE +8.4 (개발 세트 기준)로 BERT-large 대비 향상.
  • ALBERT-xxlarge는 더 적은 매개변수와 경쟁력 있는 학습 속도로 더 높은 GLUE 및 SQuAD 점수에 도달하며, 예를 들어 RACE에서 ALBERT-xxlarge가 BERT-large 대비 Avg에서 8.4 포인트 향상.
  • SOP 손실은 NSP 및 비-설정보다 성능이 우수하며 다중 문장 인코딩 작업에서 일관된 이득을 제공합니다(+약 1%에서 +2% Avg).
  • 드롭아웃 제거 및 외부 데이터 추가가 대형 ALBERT 변형에서 MLM 및 다운스트림 성능을 더욱 향상시킵니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.