QUICK REVIEW

[論文レビュー] The Evolved Transformer

David R. So, Liang Chen|arXiv (Cornell University)|Jan 30, 2019

Magnetic Properties and Applications被引用数 196

ひとこと要約

本論文は、Progressive Dynamic Hurdlesを用いた進化的ニューラルアーキテクチャ探索（NAS）をTransformerをシードとして適用し、複数の言語タスクでTransformerを上回る高速で精度の高いフィードフォワード型 seq2seq モデルを見つける。WMT’14 En-De で新しい最先端BLEUを達成し、より小さなサイズでパラメータ効率が高い。

ABSTRACT

Recent works have highlighted the strength of the Transformer architecture on sequence tasks while, at the same time, neural architecture search (NAS) has begun to outperform human-designed models. Our goal is to apply NAS to search for a better alternative to the Transformer. We first construct a large search space inspired by the recent advances in feed-forward sequence models and then run evolutionary architecture search with warm starting by seeding our initial population with the Transformer. To directly search on the computationally expensive WMT 2014 English-German translation task, we develop the Progressive Dynamic Hurdles method, which allows us to dynamically allocate more resources to more promising candidate models. The architecture found in our experiments -- the Evolved Transformer -- demonstrates consistent improvement over the Transformer on four well-established language tasks: WMT 2014 English-German, WMT 2014 English-French, WMT 2014 English-Czech and LM1B. At a big model size, the Evolved Transformer establishes a new state-of-the-art BLEU score of 29.8 on WMT'14 English-German; at smaller sizes, it achieves the same quality as the original "big" Transformer with 37.6% less parameters and outperforms the Transformer by 0.7 BLEU at a mobile-friendly model size of 7M parameters.

研究の動機と目的

Transformerを超えるフィードフォワード seq2seq モデルの改善のための NAS の動機付け。
モダンな seq2seq コンポーネントを含む、Transformerを代表する大規模な探索空間を構築する。
計算集約的なタスクを直接効率的に探索するための Progressive Dynamic Hurdles (PDH) を開発する。
探索の効率と性能を向上させるために Transformer で探索をシードする。
進化したアーキテクチャである Evolved Transformer (ET) が、複数のタスクとサイズにわたって Transformer を上回ることを示す。

提案手法

エンコーダ/デコーダブロックを表現する遺伝子エンコードを用いたトーナメント選択型の進化 NAS を使用する。
探索のアンカーとして初期集団を Transformer でシードする。
NASNet風ブロックと複数のブランチレベルフィールドを備えた2セルの探索空間（エンコーダとデコーダ）を構築する。
有望な候補にはより多くの訓練ステップを割り当て、性能の低いものを早期に廃棄するよう PDH を導入する。
WMT’14 En-De で候補モデルを訓練し、検証 perplexity で適性を評価し、突然変異と選択を繰り返してアーキテクチャを進化させる。

実験結果

リサーチクエスチョン

RQ1ニューラルアーキテクチャ探索は、翻訳と言語モデリングにおいて Transformer より優れたフィードフォワード seq2seq アーキテクチャを見つけられるか？
RQ2Transformer でシードし、PDH を用いることが NAS の効率と最終モデル品質を向上させるか？
RQ3進化したモデルにおいて Transformer と比較してどのようなアーキテクチャ的特徴が現れるか？
RQ4Evolved Transformer (ET) は複数のタスクとモデルサイズにおいて Transformer とどのように比較されるか？

主な発見

Task	Size	Tran Params	ET Params	Tran Perplexity	ET Perplexity	Tran BLEU	ET BLEU
WMT’14 En-De	Base	61.1M	64.1M	4.24 ± 0.03	4.03 ± 0.02	28.2 ± 0.2	28.4 ± 0.2
WMT’14 En-De	Big	210.4M	221.7M	3.87 ± 0.02	3.77 ± 0.02	29.1 ± 0.1	29.3 ± 0.1
WMT’14 En-De	Deep	224.0M	218.1M	3.86 ± 0.02	3.69 ± 0.01	29.2 ± 0.1	29.5 ± 0.1
WMT’14 En-Fr	Base	60.8M	63.8M	3.61 ± 0.01	3.42 ± 0.01	40.0 ± 0.1	40.6 ± 0.1
WMT’14 En-Fr	Big	209.8M	221.2M	3.26 ± 0.01	3.13 ± 0.01	41.2 ± 0.1	41.3 ± 0.1
WMT’14 En-Cs	Base	59.8M	62.7M	4.98 ± 0.04	4.42 ± 0.01	27.0 ± 0.1	27.6 ± 0.2
WMT’14 En-Cs	Big	207.6M	218.9M	4.43 ± 0.01	4.38 ± 0.03	28.1 ± 0.1	28.2 ± 0.1
LM1B	Big	141.1M	151.8M	30.44 ± 0.04	28.60 ± 0.03	-	-

ET は翻訳と言語モデリングのタスク全般で一貫して Transformer を上回る。
WMT’14 En-De では、ET は Transformer と同程度のパラメータ数で最先端BLEU 29.8を達成。
モバイルに適したサイズ (~7M パラメータ) では、ET は Transformer の品質と同等で、パラメータを約37.6%削減し、BLEU を約0.7 向上。
ET は En-De, En-Fr, En-Cs, LM1B のベース・ビッグサイズで改善を示し、特に小さいモデルで大きな利得を得ている。
ET の顕著なアーキテクチャ特性には、下位層の広い depth-wise separable convolution、ブランチ構造、ゲート付き活性化、swish活性化が含まれる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。