Skip to main content
QUICK REVIEW

[論文レビュー] Pretrained Transformers as Universal Computation Engines

Kevin Lü, Aditya Grover|arXiv (Cornell University)|Mar 9, 2021
Ferroelectric and Negative Capacitance Devices参考文献 60被引用数 99
ひとこと要約

GPT-2スタイルの言語トランスフォーマーは自己注意層とフィードフォワード層を凍結(フリーズ)し、入力/出力層と層正規化のみをファインチューニングすることで、モダリティを横断(数値、視覚、タンパク質)に対応する能力を持つ競争力のある精度とより速い収束を実現でき、言語事前学習が普遍的計算能力を担うことを示唆する。

ABSTRACT

We investigate the capability of a transformer pretrained on natural language to generalize to other modalities with minimal finetuning -- in particular, without finetuning of the self-attention and feedforward layers of the residual blocks. We consider such a model, which we call a Frozen Pretrained Transformer (FPT), and study finetuning it on a variety of sequence classification tasks spanning numerical computation, vision, and protein fold prediction. In contrast to prior works which investigate finetuning on the same modality as the pretraining dataset, we show that pretraining on natural language can improve performance and compute efficiency on non-language downstream tasks. Additionally, we perform an analysis of the architecture, comparing the performance of a random initialized transformer to a random LSTM. Combining the two insights, we find language-pretrained transformers can obtain strong performance on a variety of non-language tasks.

研究の動機と目的

  • 自然言語で事前学習したトランスフォーマーが最小限の微調整で他のモダリティに一般化できるかを調査する。
  • クロスドメイン転送における事前学習モダリティとアーキテクチャの役割を評価する。
  • 自己注意とフィードフォワード層の凍結と周辺コンポーネントのみの微調整の重要性を評価する。
  • クロスモーダルタスクにおけるTransformerとLSTMのベースラインを比較する。
  • 下流タスクに対する言語事前学習による計算効率の向上を分析する。

提案手法

  • 自己注意とフィードフォワード層を凍結することで、事前学習済みGPT-2トランスフォーマーを普遍的計算エンジン(FPT)として用いる。
  • 多様な下流タスクのために、入力埋め込み層、出力層、層正規化(および任意で位置埋め込み)だけをファインチューニングする。
  • 数値計算、画像分類、タンパク質折りたたみ予測にわたる7つの分類タスクで評価する。
  • 完全訓練済みのトランスフォーマーやLSTM、その他の事前学習モダリティ(Bit memory、ViT)と比較する。
  • 転送を駆動する要因を特定するため、アテンションパターン、収束速度、アブレーションを分析する。

実験結果

リサーチクエスチョン

  • RQ1言語で事前学習されたトランスフォーマーは、コアの自己注意/FFNパラメータを更新せずに異なるモダリティへ転送できるか?
  • RQ2クロスモーダル転送において、事前学習モダリティ(言語対ランダム対画像)はどの程度重要か?
  • RQ3転送性能にはトランスフォーマーアーキテクチャがLSTMベースラインと比較して必須か?
  • RQ4他のモダリティへ転送する際、言語事前学習はランダム初期化より計算効率を改善するか?
  • RQ5ファインチューニングで最も重要なコンポーネントはどれか(入力層、出力層、層正規化、位置埋め込み)?

主な発見

モデルBit MemoryXORListOpsMNISTCIFAR-10CIFAR-10 LRAHomology
FPT100%100%38.4%98.0%72.1%38.6%12.7%
Full100%100%38%99.1%70.3%42%9%
LSTM60.9%50.1%17.1%99.5%73.6%11.7%12%
  • 凍結された事前学習済みトランスフォーマーは、7つの下流タスクで完全訓練済みのトランスフォーマーおよびLSTMと競合する精度を達成する。
  • Bit MemoryとXORタスクはFPTで100%を達成し、ListOps、MNIST、CIFAR-10、CIFAR-10 LRA、HomologyはLSTMsより大幅な改善を示し、完全なトランスフォーマーベースのベースラインに近づく。
  • 言語事前学習は、タスクを問わずランダム初期化よりも収束を速める。
  • モデル性能はサイズとともにスケールする。より大きな凍結トランスフォーマーはCIFAR-10の精度を向上させる(ベースで68.2%、ベース設定で68.2%→72.1%、より大きいバリアントでさらに高い)。
  • 一部のビットタスクではアテンション層を凍結することで解釈可能でタスクに関連したアテンションパターンが得られ、下流のニーズと意味的に整合していることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。