Skip to main content
QUICK REVIEW

[論文レビュー] Reducing Transformer Depth on Demand with Structured Dropout

Angela Fan, Édouard Grave|arXiv (Cornell University)|Sep 25, 2019
Topic Modeling参考文献 56被引用数 273
ひとこと要約

LayerDropは、微調整なしで推論時に任意のサブネットワーク深さを抽出できるよう、過剰にパラメータ化された単一のTransformerを訓練し、強力な性能を維持しつつ効率的なオンデマンドモデルを実現します。

ABSTRACT

Overparameterized transformer networks have obtained state of the art results in various natural language processing tasks, such as machine translation, language modeling, and question answering. These models contain hundreds of millions of parameters, necessitating a large amount of computation and making them prone to overfitting. In this work, we explore LayerDrop, a form of structured dropout, which has a regularization effect during training and allows for efficient pruning at inference time. In particular, we show that it is possible to select sub-networks of any depth from one large network without having to finetune them and with limited impact on performance. We demonstrate the effectiveness of our approach by improving the state of the art on machine translation, language modeling, summarization, question answering, and language understanding benchmarks. Moreover, we show that our approach leads to small BERT-like models of higher quality compared to training from scratch or using distillation.

研究の動機と目的

  • NLPタスクにおけるメモリと計算資源を効率化したTransformerモデルの必要性を動機づける。
  • 微調整なしで異なる深さのサブネットワークを堅牢にするトレーニング正則化を導入する。
  • 小さな深さへの剪定がベンチマーク全体で競争力のあるまたは最先端の性能を生むことを示す。

提案手法

  • モデル構造に対応する重みのグループを削除することでランダムな構造的ドロップアウトを適用する(例: レイヤー)。
  • 推論時のオンデマンド深さを可能にするために、Transformerの全体レイヤーをドロップする(LayerDrop)ことに焦点を当てる。
  • 剪定戦略(Every Other、Search on Valid、Data Driven)を説明し、単純さと有効性のためにEvery Otherを推奨する。
  • 望ましい深さを目指すための最適な剪定ドロップ率 p* = 1 - r/N の関係を提供する。
  • 大規模なTransformerモデルを一度訓練し、テスト時にファインチューニングなしで浅いサブネットワークを抽出する。

実験結果

リサーチクエスチョン

  • RQ1LayerDropは推論時の層単位剪定に対してTransformerを堅牢に正則化できるか?
  • RQ2LayerDropによるオンデマンド深さは、NLPタスク全体で別個の小さなモデルを訓練することや蒸留とどう比較されるか?
  • RQ3剪定時にどの層を保持するかを選択するのに有効な剪定戦略は何か?
  • RQ4LayerDropは翻訳、言語モデル、要約、QA、NLUベンチマーク全体で最先端の結果を可能にするか?

主な発見

  • LayerDropは非常に深いTransformerを正則化し、訓練を安定化させ、複数のNLPベンチマークで強力な結果を達成する。
  • 1つの大規模事前訓練モデルから、任意の深さの小さく効率的なサブネットワークをテスト時にファインチューニングなしで抽出できる。
  • LayerDrop対応の剪定は、ゼロから小さいモデルを訓練することやLayerDropなしの標準剪定を上回ることが多く、生成タスクと事前訓練タスクの両方で優れる。
  • 全体的なレイヤーの削除は有効で、Every Otherレイヤーはタスクを横断して強力で単純な剪定戦略である。
  • LayerDropを用いたRoBERTa系モデルの剪定は、スクラッチ訓練のBERT/RoBERTaや蒸留よりも多くの設定で良い結果をもたらす、特にデータ量が多い場合。
  • 大きなLayerDropで訓練すると、深さの大幅な削減が必要な場合に性能が向上し、訓練時と推論時の条件を一致させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。