[論文レビュー] MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers
MegaByte は長いバイト列を効率的にモデル化するために、グローバルパッチレベルのトランスフォーマーと各パッチ内の局所自回帰モデリングを組み合わせた二層パッチベースデコーダアーキテクチャを導入し、トークン化不要のスケール可能なシーケンスモデリングを実現する。
Autoregressive transformers are spectacular models for short sequences but scale poorly to long sequences such as high-resolution images, podcasts, code, or books. We proposed Megabyte, a multi-scale decoder architecture that enables end-to-end differentiable modeling of sequences of over one million bytes. Megabyte segments sequences into patches and uses a local submodel within patches and a global model between patches. This enables sub-quadratic self-attention, much larger feedforward layers for the same compute, and improved parallelism during decoding -- unlocking better performance at reduced cost for both training and generation. Extensive experiments show that Megabyte allows byte-level models to perform competitively with subword models on long context language modeling, achieve state-of-the-art density estimation on ImageNet, and model audio from raw files. Together, these results establish the viability of tokenization-free autoregressive sequence modeling at scale.
研究の動機と目的
- トークン化不要のシーケンスモデリングを非常に長いシーケンス(バイト)に向けて動機づけ、巨大デコーダの非効率性を特定する。
- グローバルコンテキストを持つパッチに分割し、グローバルな文脈とパッチ内モデルを備えた局所的な多尺度デコーダアーキテクチャを提案する。
- アーキテクチャがサブ二乗のアテンション、より大きな実質的なフィードフォワード容量、およびより速い生成をもたらすことを示す。
- 言語モデリングで競争力を、ImageNet の最先端密度推定と生データ音声モデリングを示す。
- テキスト、画像、音声のモダリティ全体で、計算量とデータ量を制御した性能を評価する。
提案手法
- 入力シーケンスを長さ P の固定サイズパッチ K 個に分割して総長 T から形成する。
- パッチ埋め込み器を用いて bytes をパッチ表現へ変換し位置情報を付与する。
- 大きなグローバルなトランスフォーマーを用いてパッチ間の表現を文脈的に処理する(因果的、パッチレベル自己注意)。
- 各パッチ内で小さな局所トランスフォーマーを適用し、グローバル出力とパッチ内バイト埋め込みを用いてそのパッチ内のバイトを自回帰的に予測する。
- 局所モデルからのトークン確率を局所埋め込み表現のソフトマックスを介して計算する。
- 効率性と文脈利用を高める拡張として、畳み込みパッチエンコーディング、パッチ間注目、ストライド推論などを任意で追加する。
実験結果
リサーチクエスチョン
- RQ1トークン化不要の自己回帰モデルは、100万バイトを超えるシーケンスを効率的に扱えるか?
- RQ2グローバルパッチレベルと局所パッチ内の2段階トランスフォーマーアーキテクチャは、標準デコーダや既存の長シーケンスモデルと比較して競争力のある性能と改善された効率を達成するか?
- RQ3MegaByte を用いたテキスト、画像、音声タスクで、自己注意の複雑さ、トークンあたりの計算量、および生成速度にどのような改善があるか?
- RQ4固定計算量予算の下で、パッチサイズとグローバル/ローカルモデル容量の割り当ては性能にどう影響するか?
主な発見
| データセット | Transformer (bpb) | PerceiverAR (bpb) | MegaByte (bpb) |
|---|---|---|---|
| PG-19 | 1.057 | 1.104 | 1.000 |
| Stories | 1.064 | 1.070 | 0.978 |
| Books | 1.097 | 1.104 | 1.007 |
| arXiv | 0.816 | 0.791 | 0.678 |
| Code | 0.575 | 0.546 | 0.411 |
- MegaByte は適切なパッチサイズで O(T^{4/3}) の自己注意複雑度を達成し、百万バイト級シーケンスモデリングを可能にする。
- パッチ内の局所自回帰はパッチごとに大きなフィードフォワード容量を許容しつつ全体計算を抑え、モデルの表現力を向上させる。
- 計算資源/データ制御実験において、MegaByte は長い文脈の言語モデリング(PG-19, Stories, Books, arXiv, Code)で標準デコーダーTransformersおよび PerceiverAR を上回る。
- ImageNet 密度推定(64x64, 128x128, 640x640 バリアント)で MegaByte は最先端と同等かそれを上回りつつ、最も強力なベースラインの約半分の計算量で済む。
- 生データのオーディオモデリングでは、MegaByte はバイトレベルのベースラインよりもビット毎バイト(bpb)を低く抑え、トークン化不要の自回帰オーディオモデリングを効果的に実現。
- ストライド推論とパッチ間拡張は、長い文脈の利用と生成速度をさらに向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。