Skip to main content
QUICK REVIEW

[論文レビュー] Scaling Laws for Autoregressive Generative Modeling

Tom Henighan, Jared Kaplan|arXiv (Cornell University)|Oct 28, 2020
Multimodal Machine Learning Applications参考文献 23被引用数 149
ひとこと要約

本論文は、自己回帰型Transformerが言語・画像・動画・マルチモーダル・数学の各領域をまたぐクロスエントロピー損失の、べき法則+定数による一貫したスケーリングを示し、ほぼ普遍的な最適モデルサイズの計算資源依存スケーリングと、解釈可能な不可約/可約損失成分をもたらすことを示している。

ABSTRACT

We identify empirical scaling laws for the cross-entropy loss in four domains: generative image modeling, video modeling, multimodal image$\leftrightarrow$text models, and mathematical problem solving. In all cases autoregressive Transformers smoothly improve in performance as model size and compute budgets increase, following a power-law plus constant scaling law. The optimal model size also depends on the compute budget through a power-law, with exponents that are nearly universal across all data domains. The cross-entropy loss has an information theoretic interpretation as $S($True$) + D_{\mathrm{KL}}($True$||$Model$)$, and the empirical scaling laws suggest a prediction for both the true data distribution's entropy and the KL divergence between the true and model distributions. With this interpretation, billion-parameter Transformers are nearly perfect models of the YFCC100M image distribution downsampled to an $8 imes 8$ resolution, and we can forecast the model size needed to achieve any given reducible loss (ie $D_{\mathrm{KL}}$) in nats/image for other resolutions. We find a number of additional scaling laws in specific domains: (a) we identify a scaling relation for the mutual information between captions and images in multimodal models, and show how to answer the question "Is a picture worth a thousand words?"; (b) in the case of mathematical problem solving, we identify scaling laws for model performance when extrapolating beyond the training distribution; (c) we finetune generative image models for ImageNet classification and find smooth scaling of the classification loss and error rate, even as the generative loss levels off. Taken together, these results strengthen the case that scaling laws have important implications for neural network performance, including on downstream tasks.

研究の動機と目的

  • 自己回帰型Transformerを用いて複数データモダリティにおけるクロスエントロピー損失の経験的スケーリング則を特定する。
  • 最適モデルサイズが計算資源予算にどのように依存するかを特徴づけ、損失が不可約成分と可約成分にどのように分解されるかを明らかにする。
  • ドメイン固有のスケーリング指数を定量化し、情報理論的視点から解釈する。
  • スケーリング則が分類、マルチリンガル/マルチモーダルタスク、および数学の問題解法の外挿に及ぼす影響を実証する。

提案手法

  • 言語、複数解像度の画像、動画、マルチモーダル画像テキスト、及び手続き的生成数学などの領域で、自己回帰クロスエントロピー損失を用いたデコーダ中心のTransformerモデルを訓練する。
  • 損失Lを、L∞+(x0/x)^{αx} の形のべき法則プラス定数として、x(モデルサイズN、計算資源C、場合によりデータセットサイズD)を変化させて適合させる。
  • 計算資源の関数として最適モデルサイズNopt(C)を推定し、Nopt ∝ C^β となることを域内でβ≈0.7として示す。
  • 文脈長と計算量を管理するために、ドメイン固有のエンコーディング(ピクセルトークン、VQコード)とスパース/デンスアテンションパターンを用いる。
  • 不可約損失L∞を真の分布のエントロピーに概ね対応させ、可約損失を概ねD_KL(True||Model)として解釈する。
  • マルチモーダルモデルにおける相互情報量と情報利得の現れるドメイン特有の現象を、モデルサイズとともに検討する。

実験結果

リサーチクエスチョン

  • RQ1自己回帰型Transformerを使用した場合、言語・画像・動画・マルチモーダル・数学領域でのL = L∞ + (x0/x)^{αx} のスケーリング則は成立するか。
  • RQ2領域を横断して、最適モデルサイズは計算資源予算とともにどのように変化し、指数βは普遍的か。
  • RQ3これらの領域における不可約損失と可約損失の解釈は何を意味し、データエントロピーとモデルKL発散について何を示唆するか。
  • RQ4ImageNetのファインチューニング、マルチモーダル情報利得、数学的問題解法の外挿といったタスクに対するスケーリング則の下流への影響はどのようになるか。
  • RQ5データ構造と文脈長は、位置依存の損失とスケーリング挙動にどのように影響するか。

主な発見

  • 言語・画像・動画・マルチモーダル・数学領域に対して、L = L∞ + (x0/x)^{αx} の形のスケーリング則が成立する。
  • 最適モデルサイズは計算資源に対して Nopt ∝ C^{0.7} の関係でスケールする。
  • 不可約損失L∞はデータエントロピーに追従し、可約損失は真の分布とモデル分布のKL発散を追従する。後者は生成損失がL∞に近づいても情報を保つことが多い。
  • マルチモーダルモデルは、モデルサイズとともに相互情報量と情報利得が滑らかにスケールすることを示し、Infogainという指標がスケールとともに増加する。
  • 数学領域では外挿性能はモデルサイズより訓練分布の性能に依存しており、大きなモデルによる一般化の恩恵は限定的であることを示す。
  • ImageNetの生成モデルのファインチューニングは、生成における不可約損失へ近づく後も分類損失の滑らかなスケーリングを示し続ける。
  • 最適なアスペクト比は、言語に比べ画像や動画に対してより深く細いモデルを好む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。