QUICK REVIEW

[논문 리뷰] The Evolved Transformer

David R. So, Liang Chen|arXiv (Cornell University)|2019. 01. 30.

Magnetic Properties and Applications인용 수 196

한 줄 요약

논문은 Progressive Dynamic Hurdles로 Seed된 Evolutionary Neural Architecture Search를 Transformer에서 더 빠르고 정확한 feed-forward seq2seq 모델을 찾기 위해 사용한다. 이는 WMT’14 En-De에서 새로운 상태의 최첨 BLEU를 달성하고 작은 크기에서 파라미터 효율이 더 높다.

ABSTRACT

Recent works have highlighted the strength of the Transformer architecture on sequence tasks while, at the same time, neural architecture search (NAS) has begun to outperform human-designed models. Our goal is to apply NAS to search for a better alternative to the Transformer. We first construct a large search space inspired by the recent advances in feed-forward sequence models and then run evolutionary architecture search with warm starting by seeding our initial population with the Transformer. To directly search on the computationally expensive WMT 2014 English-German translation task, we develop the Progressive Dynamic Hurdles method, which allows us to dynamically allocate more resources to more promising candidate models. The architecture found in our experiments -- the Evolved Transformer -- demonstrates consistent improvement over the Transformer on four well-established language tasks: WMT 2014 English-German, WMT 2014 English-French, WMT 2014 English-Czech and LM1B. At a big model size, the Evolved Transformer establishes a new state-of-the-art BLEU score of 29.8 on WMT'14 English-German; at smaller sizes, it achieves the same quality as the original "big" Transformer with 37.6% less parameters and outperforms the Transformer by 0.7 BLEU at a mobile-friendly model size of 7M parameters.

연구 동기 및 목표

Transformer를 넘어서는 feed-forward seq2seq 모델 개선을 위한 NAS의 필요성 제시.
현대 seq2seq 구성 요소를 포함하는 대규모, Transformer를 대표하는 탐색 공간 구성.
계산 집약적 작업에서 직접 탐색을 효율적으로 수행하기 위한 Progressive Dynamic Hurdles(PDH) 도입.
탐색의 초기 안정화를 위해 Transformer로 탐색 시작(seed)하여 탐색 효율성과 성능 향상.
발전된 아키텍처인 Evolved Transformer(ET)가 여러 작업과 크기에서 Transformer를 능가함을 입증.

제안 방법

엔코더/디코더 블록을 표현하는 유전자를 이용한 토너먼트 선택 진화 NAS를 사용한다.
탐색을 고정하기 위해 초기 개체군을 Transformer로 seed한다.
NASNet 스타일 블록과 여러 가지 분기 수준 필드를 갖춘 엔코더와 디코더의 이중 셀 탐색 공간을 구성한다.
PDH를 도입하여 유망한 후보에 더 많은 학습 단계를 할당하고 조기에 열등한 후보를 제거한다.
WMT’14 En-De에서 후보 모형을 학습하고 검증 perplexity로 적합도를 평가한 뒤, 변이시키고 선택하여 아키텍처를 진화시킨다.

실험 결과

연구 질문

RQ1신경망 아키텍처 탐색(NAS)이 Transformer보다 우수한 feed-forward seq2seq 아키텍처를 번역 및 언어 모델링에서 찾을 수 있는가?
RQ2Transformer로 seed하고 PDH를 사용하면 NAS의 효율성과 최종 모형의 품질이 향상되는가?
RQ3진화된 모델에서 Transformer와 비교해 어떤 아키텍처적 특성이 나타나는가?
RQ4Evolved Transformer(ET)가 여러 작업과 모델 크기에서 Transformer와 어떻게 비교되는가?

주요 결과

Task	Size	Tran Params	ET Params	Tran Perplexity	ET Perplexity	Tran BLEU	ET BLEU
WMT’14 En-De	Base	61.1M	64.1M	4.24 ± 0.03	4.03 ± 0.02	28.2 ± 0.2	28.4 ± 0.2
WMT’14 En-De	Big	210.4M	221.7M	3.87 ± 0.02	3.77 ± 0.02	29.1 ± 0.1	29.3 ± 0.1
WMT’14 En-De	Deep	224.0M	218.1M	3.86 ± 0.02	3.69 ± 0.01	29.2 ± 0.1	29.5 ± 0.1
WMT’14 En-Fr	Base	60.8M	63.8M	3.61 ± 0.01	3.42 ± 0.01	40.0 ± 0.1	40.6 ± 0.1
WMT’14 En-Fr	Big	209.8M	221.2M	3.26 ± 0.01	3.13 ± 0.01	41.2 ± 0.1	41.3 ± 0.1
WMT’14 En-Cs	Base	59.8M	62.7M	4.98 ± 0.04	4.42 ± 0.01	27.0 ± 0.1	27.6 ± 0.2
WMT’14 En-Cs	Big	207.6M	218.9M	4.43 ± 0.01	4.38 ± 0.03	28.1 ± 0.1	28.2 ± 0.1
LM1B	Big	141.1M	151.8M	30.44 ± 0.04	28.60 ± 0.03	-	-

ET는 번역 및 언어 모델링 작업 전반에서 일관되게 Transformer를 능가한다.
WMT’14 En-De에서 ET는 Transformer와 비슷한 파라미터 수로 29.8의 상태-최신 BLEU를 달성한다.
모바일 친화적 크기(~7M 파라미터)에서 ET는 Transformer 품질과 비슷한 성능을 보이며 파라미터를 37.6% 더 줄이고 BLEU를 약 0.7 향상시킨다.
En-De, En-Fr, En-Cs, LM1B에서 베이스 및 빅 사이즈에서 향상을 보이고, 작은 모델에서 큰 이득을 얻는다.
ET의 주목할 만한 아키텍처 특징으로는 아래층의 넓은 depth-wise separable convolution, 분기 구조, 게이트 활성화 및 swish 활성화가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.