Skip to main content
QUICK REVIEW

[論文レビュー] Transformer models: an introduction and catalog

Xavier Amatriain, Sankar, Ananth|arXiv (Cornell University)|Feb 12, 2023
Reservoir Engineering and Simulation Methods被引用数 32
ひとこと要約

Transformerの基礎を紹介し、人気のTransformerモデルの総合カタログを提示するカタログ風の調査。自己教師ありと人間が介在するファインチューニング済みの派生を含む。

ABSTRACT

In the past few years we have seen the meteoric appearance of dozens of foundation models of the Transformer family, all of which have memorable and sometimes funny, but not self-explanatory, names. The goal of this paper is to offer a somewhat comprehensive but simple catalog and classification of the most popular Transformer models. The paper also includes an introduction to the most important aspects and innovations in Transformer models. Our catalog will include models that are trained using self-supervised learning (e.g., BERT or GPT3) as well as those that are further trained using a human-in-the-loop (e.g. the InstructGPT model used by ChatGPT).

研究の動機と目的

  • Transformerアーキテクチャの理解と、それがNLPおよびそれ以外の領域に及ぼす影響を促す。
  • 人気のTransformerモデルとそのコア特性の、シンプルで包括的なカタログを提供する。
  • ファウンデーションモデルとファインチューニング済みモデルの区別、およびRLHFと人間のフィードバックが現代のシステムで果たす役割を説明する。
  • タスクとモダリティを横断するTransformerモデルの進化、応用、および拡張を強調する。

提案手法

  • エンコーダ/デコーダ Transformerアーキテクチャとアテンション機構を説明する。
  • 前学習アーキテクチャ(エンコーダ、デコーダ、またはエンコーダ-デコーダ)および前学習タスク(MLM、DAE、LM など)でモデルを分類する。
  • ファウンデーションモデルとファインチューニング済みモデルの定義と論じ、実践におけるRLHFの役割を説明する。
  • モデルの系統と関係を追跡するカタログ表とファミリーツリーを提示する。
  • 主要属性を持つ代表的なモデルを詳述した年代順タイムラインと付録のカタログリストを提供する。
  • DiffusionモデルをTransformerと関連づけて説明し、それらの相互運用性に言及する。
Figure 1: Transformer Architecture from ( ?)
Figure 1: Transformer Architecture from ( ?)

実験結果

リサーチクエスチョン

  • RQ1主要なTransformerモデルを定義するコアとなるアーキテクチャのバリエーションと前学習目的は何か?
  • RQ2ファウンデーションモデルは実践的にはファインチューニング済みモデルとどう異なるか、そしてRLHFはどのような役割を果たすか?
  • RQ3現在までの人気Transformerモデルの全体像と系統はどのようなもので、マルチモーダルや対話エージェントを含むか?
  • RQ4タスクとモダリティを横断するTransformerモデルの開発を牽引する主要な応用とトレンドは何か?

主な発見

  • Transformersは自己注意を介した並列計算と長距離依存の学習を可能にし、RNN/LSTMアーキテクチャを超える発展を促進する。
  • 自己 supervisionで訓練されたファウンデーションモデルは、ファインチューニングやプロンプティングを通じて広範な下流タスクに適用できる。
  • Human-in-the-loop技術のようなRLHFは、ChatGPTや関連システムの整合性と改善に中心的な役割を果たす。
  • カタログは、BERT、GPT、BART、T5、BLOOM などさまざまなファミリーのモデルを、異なる前学習アーキテクチャとタスクを持つ形で多数特定する。
  • DiffusionモデルはTransformerに関連するが異なるものであり、ただし多くの拡散アプローチはTransformerバックボーンを組み込む。
  • 本論文は、ツール群、ハードウェアアクセラレータ、オープンソースコミュニティ(例:HuggingFace)など、Transformersを取り巻くエコシステムを強調し、普及を加速する。
Figure 2: The Attention Mechanism from( ?). (left) Scaled Dot-Product Attention, (right) Multi-Head Attention
Figure 2: The Attention Mechanism from( ?). (left) Scaled Dot-Product Attention, (right) Multi-Head Attention

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。