[論文レビュー] The Evolved Transformer
本論文は、Progressive Dynamic Hurdlesを用いた進化的ニューラルアーキテクチャ探索(NAS)をTransformerをシードとして適用し、複数の言語タスクでTransformerを上回る高速で精度の高いフィードフォワード型 seq2seq モデルを見つける。WMT’14 En-De で新しい最先端BLEUを達成し、より小さなサイズでパラメータ効率が高い。
Recent works have highlighted the strength of the Transformer architecture on sequence tasks while, at the same time, neural architecture search (NAS) has begun to outperform human-designed models. Our goal is to apply NAS to search for a better alternative to the Transformer. We first construct a large search space inspired by the recent advances in feed-forward sequence models and then run evolutionary architecture search with warm starting by seeding our initial population with the Transformer. To directly search on the computationally expensive WMT 2014 English-German translation task, we develop the Progressive Dynamic Hurdles method, which allows us to dynamically allocate more resources to more promising candidate models. The architecture found in our experiments -- the Evolved Transformer -- demonstrates consistent improvement over the Transformer on four well-established language tasks: WMT 2014 English-German, WMT 2014 English-French, WMT 2014 English-Czech and LM1B. At a big model size, the Evolved Transformer establishes a new state-of-the-art BLEU score of 29.8 on WMT'14 English-German; at smaller sizes, it achieves the same quality as the original "big" Transformer with 37.6% less parameters and outperforms the Transformer by 0.7 BLEU at a mobile-friendly model size of 7M parameters.
研究の動機と目的
- Transformerを超えるフィードフォワード seq2seq モデルの改善のための NAS の動機付け。
- モダンな seq2seq コンポーネントを含む、Transformerを代表する大規模な探索空間を構築する。
- 計算集約的なタスクを直接効率的に探索するための Progressive Dynamic Hurdles (PDH) を開発する。
- 探索の効率と性能を向上させるために Transformer で探索をシードする。
- 進化したアーキテクチャである Evolved Transformer (ET) が、複数のタスクとサイズにわたって Transformer を上回ることを示す。
提案手法
- エンコーダ/デコーダブロックを表現する遺伝子エンコードを用いたトーナメント選択型の進化 NAS を使用する。
- 探索のアンカーとして初期集団を Transformer でシードする。
- NASNet風ブロックと複数のブランチレベルフィールドを備えた2セルの探索空間(エンコーダとデコーダ)を構築する。
- 有望な候補にはより多くの訓練ステップを割り当て、性能の低いものを早期に廃棄するよう PDH を導入する。
- WMT’14 En-De で候補モデルを訓練し、検証 perplexity で適性を評価し、突然変異と選択を繰り返してアーキテクチャを進化させる。
実験結果
リサーチクエスチョン
- RQ1ニューラルアーキテクチャ探索は、翻訳と言語モデリングにおいて Transformer より優れたフィードフォワード seq2seq アーキテクチャを見つけられるか?
- RQ2Transformer でシードし、PDH を用いることが NAS の効率と最終モデル品質を向上させるか?
- RQ3進化したモデルにおいて Transformer と比較してどのようなアーキテクチャ的特徴が現れるか?
- RQ4Evolved Transformer (ET) は複数のタスクとモデルサイズにおいて Transformer とどのように比較されるか?
主な発見
| Task | Size | Tran Params | ET Params | Tran Perplexity | ET Perplexity | Tran BLEU | ET BLEU |
|---|---|---|---|---|---|---|---|
| WMT’14 En-De | Base | 61.1M | 64.1M | 4.24 ± 0.03 | 4.03 ± 0.02 | 28.2 ± 0.2 | 28.4 ± 0.2 |
| WMT’14 En-De | Big | 210.4M | 221.7M | 3.87 ± 0.02 | 3.77 ± 0.02 | 29.1 ± 0.1 | 29.3 ± 0.1 |
| WMT’14 En-De | Deep | 224.0M | 218.1M | 3.86 ± 0.02 | 3.69 ± 0.01 | 29.2 ± 0.1 | 29.5 ± 0.1 |
| WMT’14 En-Fr | Base | 60.8M | 63.8M | 3.61 ± 0.01 | 3.42 ± 0.01 | 40.0 ± 0.1 | 40.6 ± 0.1 |
| WMT’14 En-Fr | Big | 209.8M | 221.2M | 3.26 ± 0.01 | 3.13 ± 0.01 | 41.2 ± 0.1 | 41.3 ± 0.1 |
| WMT’14 En-Cs | Base | 59.8M | 62.7M | 4.98 ± 0.04 | 4.42 ± 0.01 | 27.0 ± 0.1 | 27.6 ± 0.2 |
| WMT’14 En-Cs | Big | 207.6M | 218.9M | 4.43 ± 0.01 | 4.38 ± 0.03 | 28.1 ± 0.1 | 28.2 ± 0.1 |
| LM1B | Big | 141.1M | 151.8M | 30.44 ± 0.04 | 28.60 ± 0.03 | - | - |
- ET は翻訳と言語モデリングのタスク全般で一貫して Transformer を上回る。
- WMT’14 En-De では、ET は Transformer と同程度のパラメータ数で最先端BLEU 29.8を達成。
- モバイルに適したサイズ (~7M パラメータ) では、ET は Transformer の品質と同等で、パラメータを約37.6%削減し、BLEU を約0.7 向上。
- ET は En-De, En-Fr, En-Cs, LM1B のベース・ビッグサイズで改善を示し、特に小さいモデルで大きな利得を得ている。
- ET の顕著なアーキテクチャ特性には、下位層の広い depth-wise separable convolution、ブランチ構造、ゲート付き活性化、swish活性化が含まれる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。