[논문 리뷰] The Evolved Transformer
논문은 Progressive Dynamic Hurdles로 Seed된 Evolutionary Neural Architecture Search를 Transformer에서 더 빠르고 정확한 feed-forward seq2seq 모델을 찾기 위해 사용한다. 이는 WMT’14 En-De에서 새로운 상태의 최첨 BLEU를 달성하고 작은 크기에서 파라미터 효율이 더 높다.
Recent works have highlighted the strength of the Transformer architecture on sequence tasks while, at the same time, neural architecture search (NAS) has begun to outperform human-designed models. Our goal is to apply NAS to search for a better alternative to the Transformer. We first construct a large search space inspired by the recent advances in feed-forward sequence models and then run evolutionary architecture search with warm starting by seeding our initial population with the Transformer. To directly search on the computationally expensive WMT 2014 English-German translation task, we develop the Progressive Dynamic Hurdles method, which allows us to dynamically allocate more resources to more promising candidate models. The architecture found in our experiments -- the Evolved Transformer -- demonstrates consistent improvement over the Transformer on four well-established language tasks: WMT 2014 English-German, WMT 2014 English-French, WMT 2014 English-Czech and LM1B. At a big model size, the Evolved Transformer establishes a new state-of-the-art BLEU score of 29.8 on WMT'14 English-German; at smaller sizes, it achieves the same quality as the original "big" Transformer with 37.6% less parameters and outperforms the Transformer by 0.7 BLEU at a mobile-friendly model size of 7M parameters.
연구 동기 및 목표
- Transformer를 넘어서는 feed-forward seq2seq 모델 개선을 위한 NAS의 필요성 제시.
- 현대 seq2seq 구성 요소를 포함하는 대규모, Transformer를 대표하는 탐색 공간 구성.
- 계산 집약적 작업에서 직접 탐색을 효율적으로 수행하기 위한 Progressive Dynamic Hurdles(PDH) 도입.
- 탐색의 초기 안정화를 위해 Transformer로 탐색 시작(seed)하여 탐색 효율성과 성능 향상.
- 발전된 아키텍처인 Evolved Transformer(ET)가 여러 작업과 크기에서 Transformer를 능가함을 입증.
제안 방법
- 엔코더/디코더 블록을 표현하는 유전자를 이용한 토너먼트 선택 진화 NAS를 사용한다.
- 탐색을 고정하기 위해 초기 개체군을 Transformer로 seed한다.
- NASNet 스타일 블록과 여러 가지 분기 수준 필드를 갖춘 엔코더와 디코더의 이중 셀 탐색 공간을 구성한다.
- PDH를 도입하여 유망한 후보에 더 많은 학습 단계를 할당하고 조기에 열등한 후보를 제거한다.
- WMT’14 En-De에서 후보 모형을 학습하고 검증 perplexity로 적합도를 평가한 뒤, 변이시키고 선택하여 아키텍처를 진화시킨다.
실험 결과
연구 질문
- RQ1신경망 아키텍처 탐색(NAS)이 Transformer보다 우수한 feed-forward seq2seq 아키텍처를 번역 및 언어 모델링에서 찾을 수 있는가?
- RQ2Transformer로 seed하고 PDH를 사용하면 NAS의 효율성과 최종 모형의 품질이 향상되는가?
- RQ3진화된 모델에서 Transformer와 비교해 어떤 아키텍처적 특성이 나타나는가?
- RQ4Evolved Transformer(ET)가 여러 작업과 모델 크기에서 Transformer와 어떻게 비교되는가?
주요 결과
| Task | Size | Tran Params | ET Params | Tran Perplexity | ET Perplexity | Tran BLEU | ET BLEU |
|---|---|---|---|---|---|---|---|
| WMT’14 En-De | Base | 61.1M | 64.1M | 4.24 ± 0.03 | 4.03 ± 0.02 | 28.2 ± 0.2 | 28.4 ± 0.2 |
| WMT’14 En-De | Big | 210.4M | 221.7M | 3.87 ± 0.02 | 3.77 ± 0.02 | 29.1 ± 0.1 | 29.3 ± 0.1 |
| WMT’14 En-De | Deep | 224.0M | 218.1M | 3.86 ± 0.02 | 3.69 ± 0.01 | 29.2 ± 0.1 | 29.5 ± 0.1 |
| WMT’14 En-Fr | Base | 60.8M | 63.8M | 3.61 ± 0.01 | 3.42 ± 0.01 | 40.0 ± 0.1 | 40.6 ± 0.1 |
| WMT’14 En-Fr | Big | 209.8M | 221.2M | 3.26 ± 0.01 | 3.13 ± 0.01 | 41.2 ± 0.1 | 41.3 ± 0.1 |
| WMT’14 En-Cs | Base | 59.8M | 62.7M | 4.98 ± 0.04 | 4.42 ± 0.01 | 27.0 ± 0.1 | 27.6 ± 0.2 |
| WMT’14 En-Cs | Big | 207.6M | 218.9M | 4.43 ± 0.01 | 4.38 ± 0.03 | 28.1 ± 0.1 | 28.2 ± 0.1 |
| LM1B | Big | 141.1M | 151.8M | 30.44 ± 0.04 | 28.60 ± 0.03 | - | - |
- ET는 번역 및 언어 모델링 작업 전반에서 일관되게 Transformer를 능가한다.
- WMT’14 En-De에서 ET는 Transformer와 비슷한 파라미터 수로 29.8의 상태-최신 BLEU를 달성한다.
- 모바일 친화적 크기(~7M 파라미터)에서 ET는 Transformer 품질과 비슷한 성능을 보이며 파라미터를 37.6% 더 줄이고 BLEU를 약 0.7 향상시킨다.
- En-De, En-Fr, En-Cs, LM1B에서 베이스 및 빅 사이즈에서 향상을 보이고, 작은 모델에서 큰 이득을 얻는다.
- ET의 주목할 만한 아키텍처 특징으로는 아래층의 넓은 depth-wise separable convolution, 분기 구조, 게이트 활성화 및 swish 활성화가 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.