Skip to main content
QUICK REVIEW

[논문 리뷰] Taming Sparsely Activated Transformer with Stochastic Experts

Simiao Zuo, Xiaodong Liu|arXiv (Cornell University)|2021. 10. 08.
Topic Modeling참고 문헌 33인용 수 27
한 줄 요약

THOR 무작위 전문가 활성화와 일관성 규제자가 표준 Transformer 및 Switch MoE 모델을 저자원, 풍부 자원, 다국어 MT 태스크 전반에서 능가하며 파라미터 효율성을 향상시키는 것을 보여준다.

ABSTRACT

Sparsely activated models (SAMs), such as Mixture-of-Experts (MoE), can easily scale to have outrageously large amounts of parameters without significant increase in computational cost. However, SAMs are reported to be parameter inefficient such that larger models do not always lead to better performance. While most on-going research focuses on improving SAMs models by exploring methods of routing inputs to experts, our analysis reveals that such research might not lead to the solution we expect, i.e., the commonly-used routing methods based on gating mechanisms do not work better than randomly routing inputs to experts. In this paper, we propose a new expert-based model, THOR (Transformer witH StOchastic ExpeRts). Unlike classic expert-based models, such as the Switch Transformer, experts in THOR are randomly activated for each input during training and inference. THOR models are trained using a consistency regularized loss, where experts learn not only from training data but also from other experts as teachers, such that all the experts make consistent predictions. We validate the effectiveness of THOR on machine translation tasks. Results show that THOR models are more parameter efficient in that they significantly outperform the Transformer and MoE models across various settings. For example, in multilingual translation, THOR outperforms the Switch Transformer by 2 BLEU scores, and obtains the same BLEU score as that of a state-of-the-art MoE model that is 18 times larger. Our code is publicly available at: https://github.com/microsoft/Stochastic-Mixture-of-Experts.

연구 동기 및 목표

  • 희소 활성화 모델(SAM)이 큰 파라미터 수에도 불구하고 파라미터 비효율적일 수 있는 이유를 동기 부여한다.
  • MoE 스타일 아키텍처에서 게이팅 기반 라우팅(top-k 전문가)이 무작위 라우팅보다 우수한지 여부를 조사한다.
  • 두 전문가가 무작위로 활성화되고 일관성 규제자가 예측을 전문가 간에 맞추도록 하는 SAM인 THOR를 제안한다.
  • 저자원, 풍부 자원, 다국어 기계 번역에서 THOR를 평가하여 파라미터 효율성과 일반화를 평가한다.

제안 방법

  • 게이팅 기반 MoE 모델을 분석하고 로드 불균형 및 무작위 라우팅 동작을 식별한다.
  • 훈련 시점과 추론 시점에 레이어당 한 쌍의 전문가를 무작위로 활성화하는 THOR를 도입한다.
  • 두 무작위 전문가 선택으로부터의 교차 엔트로피 손실과 KL 기반 일관성 항을 최소화하는 일관성 규제자를 최적화한다.
  • 전문가들이 서로의 학습으로 일관된 예측을 생성하도록 이중-교사와 같은 설정으로 THOR를 학습시킨다.
  • 표준 벤치마크를 사용하여 저자원, 풍부 자원, 다국어 MT 설정에서 THOR를 평가한다.

실험 결과

연구 질문

  • RQ1희소 활성화 모델이 유사한 크기의 조밀하게 활성화된 모델보다 본질적으로 성능이 낮은가?
  • RQ2MoE 유사 모델에서 이득을 얻기 위한 게이팅 기반 라우팅이 필요한가, 아니면 무작위 전문가 활성화가 효과적일 수 있는가?
  • RQ3전문가가 무작위로 활성화될 때도 일관성 규제자가 강건한 학습과 추론을 가능하게 하는가?
  • RQ4MT 태스크 및 설정 전반에서 THOR의 성능 이점은 Transformer 및 Switch Transformer 대비 어느 정도인가?

주요 결과

  • THOR는 세 가지 설정 모두에서 일반 Transformer 및 Switch Transformer를 지속적으로 능가한다.
  • 저자원 MT에서 THOR는 Switch보다 평균 BLEU를 1.0 포인트 이상 향상시키고 SMART 및 R3F 기준보다 우수한 성능을 보인다.
  • 풍부 자원 MT에서 THOR는 데이터 보강이나 사전 학습 없이 En-De 및 En-Fr에서 새로운 최첨단 기록을 세운다.
  • 다국어 MT에서 300M 매개변수를 가진 THOR가 5.5B 매개변수 Switch MoE의 BLEU와 일치하여 18배의 파라미터 효율성을 보여준다.
  • THOR는 Switch Transformer에 비해 더 높은 예측 일관성과 감소된 분산을 나타내며, 모델 크기가 커질수록 과적합이 줄어든다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.