Skip to main content
QUICK REVIEW

[論文レビュー] The Evolved Transformer

David R. So, Liang Chen|arXiv (Cornell University)|Jan 30, 2019
Magnetic Properties and Applications被引用数 196
ひとこと要約

本論文は、Progressive Dynamic Hurdlesを用いた進化的ニューラルアーキテクチャ探索(NAS)をTransformerをシードとして適用し、複数の言語タスクでTransformerを上回る高速で精度の高いフィードフォワード型 seq2seq モデルを見つける。WMT’14 En-De で新しい最先端BLEUを達成し、より小さなサイズでパラメータ効率が高い。

ABSTRACT

Recent works have highlighted the strength of the Transformer architecture on sequence tasks while, at the same time, neural architecture search (NAS) has begun to outperform human-designed models. Our goal is to apply NAS to search for a better alternative to the Transformer. We first construct a large search space inspired by the recent advances in feed-forward sequence models and then run evolutionary architecture search with warm starting by seeding our initial population with the Transformer. To directly search on the computationally expensive WMT 2014 English-German translation task, we develop the Progressive Dynamic Hurdles method, which allows us to dynamically allocate more resources to more promising candidate models. The architecture found in our experiments -- the Evolved Transformer -- demonstrates consistent improvement over the Transformer on four well-established language tasks: WMT 2014 English-German, WMT 2014 English-French, WMT 2014 English-Czech and LM1B. At a big model size, the Evolved Transformer establishes a new state-of-the-art BLEU score of 29.8 on WMT'14 English-German; at smaller sizes, it achieves the same quality as the original "big" Transformer with 37.6% less parameters and outperforms the Transformer by 0.7 BLEU at a mobile-friendly model size of 7M parameters.

研究の動機と目的

  • Transformerを超えるフィードフォワード seq2seq モデルの改善のための NAS の動機付け。
  • モダンな seq2seq コンポーネントを含む、Transformerを代表する大規模な探索空間を構築する。
  • 計算集約的なタスクを直接効率的に探索するための Progressive Dynamic Hurdles (PDH) を開発する。
  • 探索の効率と性能を向上させるために Transformer で探索をシードする。
  • 進化したアーキテクチャである Evolved Transformer (ET) が、複数のタスクとサイズにわたって Transformer を上回ることを示す。

提案手法

  • エンコーダ/デコーダブロックを表現する遺伝子エンコードを用いたトーナメント選択型の進化 NAS を使用する。
  • 探索のアンカーとして初期集団を Transformer でシードする。
  • NASNet風ブロックと複数のブランチレベルフィールドを備えた2セルの探索空間(エンコーダとデコーダ)を構築する。
  • 有望な候補にはより多くの訓練ステップを割り当て、性能の低いものを早期に廃棄するよう PDH を導入する。
  • WMT’14 En-De で候補モデルを訓練し、検証 perplexity で適性を評価し、突然変異と選択を繰り返してアーキテクチャを進化させる。

実験結果

リサーチクエスチョン

  • RQ1ニューラルアーキテクチャ探索は、翻訳と言語モデリングにおいて Transformer より優れたフィードフォワード seq2seq アーキテクチャを見つけられるか?
  • RQ2Transformer でシードし、PDH を用いることが NAS の効率と最終モデル品質を向上させるか?
  • RQ3進化したモデルにおいて Transformer と比較してどのようなアーキテクチャ的特徴が現れるか?
  • RQ4Evolved Transformer (ET) は複数のタスクとモデルサイズにおいて Transformer とどのように比較されるか?

主な発見

TaskSizeTran ParamsET ParamsTran PerplexityET PerplexityTran BLEUET BLEU
WMT’14 En-DeBase61.1M64.1M4.24 ± 0.034.03 ± 0.0228.2 ± 0.228.4 ± 0.2
WMT’14 En-DeBig210.4M221.7M3.87 ± 0.023.77 ± 0.0229.1 ± 0.129.3 ± 0.1
WMT’14 En-DeDeep224.0M218.1M3.86 ± 0.023.69 ± 0.0129.2 ± 0.129.5 ± 0.1
WMT’14 En-FrBase60.8M63.8M3.61 ± 0.013.42 ± 0.0140.0 ± 0.140.6 ± 0.1
WMT’14 En-FrBig209.8M221.2M3.26 ± 0.013.13 ± 0.0141.2 ± 0.141.3 ± 0.1
WMT’14 En-CsBase59.8M62.7M4.98 ± 0.044.42 ± 0.0127.0 ± 0.127.6 ± 0.2
WMT’14 En-CsBig207.6M218.9M4.43 ± 0.014.38 ± 0.0328.1 ± 0.128.2 ± 0.1
LM1BBig141.1M151.8M30.44 ± 0.0428.60 ± 0.03--
  • ET は翻訳と言語モデリングのタスク全般で一貫して Transformer を上回る。
  • WMT’14 En-De では、ET は Transformer と同程度のパラメータ数で最先端BLEU 29.8を達成。
  • モバイルに適したサイズ (~7M パラメータ) では、ET は Transformer の品質と同等で、パラメータを約37.6%削減し、BLEU を約0.7 向上。
  • ET は En-De, En-Fr, En-Cs, LM1B のベース・ビッグサイズで改善を示し、特に小さいモデルで大きな利得を得ている。
  • ET の顕著なアーキテクチャ特性には、下位層の広い depth-wise separable convolution、ブランチ構造、ゲート付き活性化、swish活性化が含まれる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。