Skip to main content
QUICK REVIEW

[論文レビュー] Optimal Subarchitecture Extraction For BERT

Adrian de Wynter, Daniel J. Perry|arXiv (Cornell University)|Oct 20, 2020
Topic Modeling参考文献 53被引用数 23
ひとこと要約

本稿では、完全多項式時間近似スキーム(FPTAS)を用いて BERT から最適なサブアーキテクチャである Bort を抽出する手法を提案する。Bort はモデルサイズ、推論速度、精度を同時に最適化する。Bert-large の有効パラメータ数の 5.5% であり、ネットサイズは 16% にまで削減されている。Pretraining に必要な GPU 時間は 288 時間(RoBERTa-large の 1.2%)にとどまり、複数の NLU ベンチマークで BERT-large を 0.3% から 31% まで上回り、CPU 上での推論速度は 7.9 倍速くなっている。

ABSTRACT

We extract an optimal subset of architectural parameters for the BERT architecture from Devlin et al. (2018) by applying recent breakthroughs in algorithms for neural architecture search. This optimal subset, which we refer to as "Bort", is demonstrably smaller, having an effective (that is, not counting the embedding layer) size of $5.5\%$ the original BERT-large architecture, and $16\%$ of the net size. Bort is also able to be pretrained in $288$ GPU hours, which is $1.2\%$ of the time required to pretrain the highest-performing BERT parametric architectural variant, RoBERTa-large (Liu et al., 2019), and about $33\%$ of that of the world-record, in GPU hours, required to train BERT-large on the same hardware. It is also $7.9$x faster on a CPU, as well as being better performing than other compressed variants of the architecture, and some of the non-compressed variants: it obtains performance improvements of between $0.3\%$ and $31\%$, absolute, with respect to BERT-large, on multiple public natural language understanding (NLU) benchmarks.

研究の動機と目的

  • 推論および pretraining の段階で大規模 BERT モデルの非効率性と高い計算コストを解消すること。
  • 従来の BERT 圧縮手法における任意的で非最適なアーキテクチャ選択を克服すること。
  • 最小限のパラメータ数でありながら高い性能を発揮する BERT サブアーキテクチャを、原理的かつアルゴリズム的に保証された方法で抽出すること。
  • 最適なサブアーキテクチャが、フルサイズの BERT モデルと比較して顕著に小さく、かつ学習が速く、精度でも上回ることを実証すること。
  • 標準的な NLU ベンチマークにおける pretraining と fine-tuning を通じて、FPTAS に基づく手法の有効性を検証すること。

提案手法

  • 完全多項式時間近似スキーム(FPTAS)を用いて、BERT のアーキテクチャハイパーパramータ(深さ、アテンションヘッド数、隠れ層・中間層サイズ)の最適な組み合わせを探索する。
  • BERT が強力な $AB^nC$ 性質を満たすことを証明し、FPTAS が推論遅延、パラメータ数、誤差率のすべての観点で理論的保証付きで最適解を提供できることを示す。
  • 知識蒸留を用いて、抽出されたサブアーキテクチャ(Bort)を収束まで微調整する。教師モデルとして事前学習済みの RoBERTa-large を使用する。
  • 収束が保証された最適化アルゴリズムである Agora を用いて、Bort の下流タスクにおける安定的かつ効果的な微調整を実現する。
  • 特に MultiRC や ReCoRD のようなデータセットで顕著なクラス不均衡を緩和するため、バランスの取れたサンプリング戦略を採用する。
  • RACE のような大規模データセットでは、訓練時間を短縮するために半数のパassage をランダムに削除することで圧縮するが、性能に悪影響を与えない。

実験結果

リサーチクエスチョン

  • RQ1FPTAS に基づくアルゴリズム的アプローチによって、従来のバリアントと比較して、より小さく、学習が速く、かつ精度の高い BERT サブアーキテクチャを実現できるか?
  • RQ2FPTAS を用いて抽出された最適なサブアーキテクチャは、長文脈や推論を要するタスクを含む多様な NLU ベンチマークで十分に一般化可能か?
  • RQ3抽出されたサブアーキテクチャの pretraining 効率は、教師モデルの選択や蒸留戦略にどの程度依存するか?
  • RQ4FPTAS で抽出されたアーキテクチャの性能は、複数のメトリクス(精度、遅延、パラメータ数)において、圧縮版およびフルサイズの BERT バリアントと比較してどうなるか?
  • RQ5FPTAS に基づく手法は、顕著に小さく、かつ pretraining が速いにもかかわらず、RoBERTa-large をも凌駆するモデルを生成できるか?

主な発見

  • Bort は BERT-large の 16% のサイズであり、埋め込み層を除く有効パラメータ数は 5.5% にまで削減されており、顕著なパラメータ効率性を示している。
  • Bort の pretraining に必要な GPU 時間は 288 時間であり、RoBERTa-large が要する 24,576 時間の 1.2%、BERT-large の 1,153 時間の 25% にとどまっている。これは pretraining コストの顕著な削減を示している。
  • GLUE ベンチマークでは、Bert-large を 0.3% から 31% の絶対的向上幅で上回っており、特に長文脈や推論を要するタスクで顕著な向上を示している。
  • RACE データセットでは、Bort は RACE-H(高校生用)と RACE-M(中学生用)の両方のサブセットで BERT-large を 9–10% 以上上回っており、それぞれ 85.9% および 80.7% の精度を達成している。
  • CPU 上での推論において、Bert-large よりも 7.9 倍速く、リアルタイムでのデプロイ可能性が著しく向上している。
  • 単純な線形分類器と標準的な微調整を用いても、複数のベンチマークで最先端の性能を達成しており、ハイパーパramータの選択に対して強い汎化性とロバスト性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。