Skip to main content
QUICK REVIEW

[논문 리뷰] The Evolved Transformer

David R. So, Liang Chen|arXiv (Cornell University)|2019. 01. 30.
Magnetic Properties and Applications인용 수 196
한 줄 요약

논문은 Progressive Dynamic Hurdles로 Seed된 Evolutionary Neural Architecture Search를 Transformer에서 더 빠르고 정확한 feed-forward seq2seq 모델을 찾기 위해 사용한다. 이는 WMT’14 En-De에서 새로운 상태의 최첨 BLEU를 달성하고 작은 크기에서 파라미터 효율이 더 높다.

ABSTRACT

Recent works have highlighted the strength of the Transformer architecture on sequence tasks while, at the same time, neural architecture search (NAS) has begun to outperform human-designed models. Our goal is to apply NAS to search for a better alternative to the Transformer. We first construct a large search space inspired by the recent advances in feed-forward sequence models and then run evolutionary architecture search with warm starting by seeding our initial population with the Transformer. To directly search on the computationally expensive WMT 2014 English-German translation task, we develop the Progressive Dynamic Hurdles method, which allows us to dynamically allocate more resources to more promising candidate models. The architecture found in our experiments -- the Evolved Transformer -- demonstrates consistent improvement over the Transformer on four well-established language tasks: WMT 2014 English-German, WMT 2014 English-French, WMT 2014 English-Czech and LM1B. At a big model size, the Evolved Transformer establishes a new state-of-the-art BLEU score of 29.8 on WMT'14 English-German; at smaller sizes, it achieves the same quality as the original "big" Transformer with 37.6% less parameters and outperforms the Transformer by 0.7 BLEU at a mobile-friendly model size of 7M parameters.

연구 동기 및 목표

  • Transformer를 넘어서는 feed-forward seq2seq 모델 개선을 위한 NAS의 필요성 제시.
  • 현대 seq2seq 구성 요소를 포함하는 대규모, Transformer를 대표하는 탐색 공간 구성.
  • 계산 집약적 작업에서 직접 탐색을 효율적으로 수행하기 위한 Progressive Dynamic Hurdles(PDH) 도입.
  • 탐색의 초기 안정화를 위해 Transformer로 탐색 시작(seed)하여 탐색 효율성과 성능 향상.
  • 발전된 아키텍처인 Evolved Transformer(ET)가 여러 작업과 크기에서 Transformer를 능가함을 입증.

제안 방법

  • 엔코더/디코더 블록을 표현하는 유전자를 이용한 토너먼트 선택 진화 NAS를 사용한다.
  • 탐색을 고정하기 위해 초기 개체군을 Transformer로 seed한다.
  • NASNet 스타일 블록과 여러 가지 분기 수준 필드를 갖춘 엔코더와 디코더의 이중 셀 탐색 공간을 구성한다.
  • PDH를 도입하여 유망한 후보에 더 많은 학습 단계를 할당하고 조기에 열등한 후보를 제거한다.
  • WMT’14 En-De에서 후보 모형을 학습하고 검증 perplexity로 적합도를 평가한 뒤, 변이시키고 선택하여 아키텍처를 진화시킨다.

실험 결과

연구 질문

  • RQ1신경망 아키텍처 탐색(NAS)이 Transformer보다 우수한 feed-forward seq2seq 아키텍처를 번역 및 언어 모델링에서 찾을 수 있는가?
  • RQ2Transformer로 seed하고 PDH를 사용하면 NAS의 효율성과 최종 모형의 품질이 향상되는가?
  • RQ3진화된 모델에서 Transformer와 비교해 어떤 아키텍처적 특성이 나타나는가?
  • RQ4Evolved Transformer(ET)가 여러 작업과 모델 크기에서 Transformer와 어떻게 비교되는가?

주요 결과

TaskSizeTran ParamsET ParamsTran PerplexityET PerplexityTran BLEUET BLEU
WMT’14 En-DeBase61.1M64.1M4.24 ± 0.034.03 ± 0.0228.2 ± 0.228.4 ± 0.2
WMT’14 En-DeBig210.4M221.7M3.87 ± 0.023.77 ± 0.0229.1 ± 0.129.3 ± 0.1
WMT’14 En-DeDeep224.0M218.1M3.86 ± 0.023.69 ± 0.0129.2 ± 0.129.5 ± 0.1
WMT’14 En-FrBase60.8M63.8M3.61 ± 0.013.42 ± 0.0140.0 ± 0.140.6 ± 0.1
WMT’14 En-FrBig209.8M221.2M3.26 ± 0.013.13 ± 0.0141.2 ± 0.141.3 ± 0.1
WMT’14 En-CsBase59.8M62.7M4.98 ± 0.044.42 ± 0.0127.0 ± 0.127.6 ± 0.2
WMT’14 En-CsBig207.6M218.9M4.43 ± 0.014.38 ± 0.0328.1 ± 0.128.2 ± 0.1
LM1BBig141.1M151.8M30.44 ± 0.0428.60 ± 0.03--
  • ET는 번역 및 언어 모델링 작업 전반에서 일관되게 Transformer를 능가한다.
  • WMT’14 En-De에서 ET는 Transformer와 비슷한 파라미터 수로 29.8의 상태-최신 BLEU를 달성한다.
  • 모바일 친화적 크기(~7M 파라미터)에서 ET는 Transformer 품질과 비슷한 성능을 보이며 파라미터를 37.6% 더 줄이고 BLEU를 약 0.7 향상시킨다.
  • En-De, En-Fr, En-Cs, LM1B에서 베이스 및 빅 사이즈에서 향상을 보이고, 작은 모델에서 큰 이득을 얻는다.
  • ET의 주목할 만한 아키텍처 특징으로는 아래층의 넓은 depth-wise separable convolution, 분기 구조, 게이트 활성화 및 swish 활성화가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.