[論文レビュー] Sequential Modeling Enables Scalable Learning for Large Vision Models
本論文は、大規模なビジョンモデル(3Bパラメータ)を、視覚的文として呼ばれる統一的な視覚トークン列フォーマットで訓練し、1.64B枚の画像と420Bトークンを使用して、ピクセルのみのデータから学習し、多数の視覚タスクに対する多用途なプロンプトを可能にする。
We introduce a novel sequential modeling approach which enables learning a Large Vision Model (LVM) without making use of any linguistic data. To do this, we define a common format, "visual sentences", in which we can represent raw images and videos as well as annotated data sources such as semantic segmentations and depth reconstructions without needing any meta-knowledge beyond the pixels. Once this wide variety of visual data (comprising 420 billion tokens) is represented as sequences, the model can be trained to minimize a cross-entropy loss for next token prediction. By training across various scales of model architecture and data diversity, we provide empirical evidence that our models scale effectively. Many different vision tasks can be solved by designing suitable visual prompts at test time.
研究の動機と目的
- 言語事前知識なしに、画像・動画・注釈など多様な視覚データを表現する統一データ形式として、visual sentences を定義する。
- 視覚シーケンスの次トークン予測から学習する、大規模なトランスフォーマーベースのモデルを構築する。
- 非常に大規模で多様な視覚データセット(UVDv1)上で複数のモデルサイズを訓練し、スケーリング特性を示す。
- テスト時の視覚 prompting が、単一のモデルからさまざまな下流の視覚能力を引き出せることを示す。
提案手法
- 学習済みVQGANベースのビジュアルトークナイザー(画像あたり256トークン)を介して、生画像・動画・注釈を視覚トークン列として表現する。
- 複数の画像からのトークンを visual sentence で連結し、トランスフォーマーの1Dトークン列を形成する。
- 次トークンクロスエントロピーロス を用いて、420Bトークン(1.64B枚の画像)上で因果的Transformer(LLaMAに類似したアーキテクチャ)を1エポック、Unified Vision Dataset v1 (UVDv1)を用いて訓練する。
- モデルサイズ(300M、600M、1B、3Bパラメータ)を探索し、スケーリング挙動と下流タスクの性能を評価する。
- 視覚 prompting による推論を可能にする。部分的な visual sentence がタスクを定義し、モデルが自己回帰的に出力を生成する。
実験結果
リサーチクエスチョン
- RQ1単一の、言語フリーな大規模ビジョンモデルが、シーケンスとして表現された多様で純粋な視覚データセットから効果的に学習できるのか?
- RQ2視覚 sentences の次トークン予測で訓練した場合、モデルサイズとデータセットのスケールが訓練損失と下流の視覚タスクにどのように影響するか?
- RQ3テスト時の視覚 prompting は、視覚タスク全体で柔軟なマルチタスク推論と生成をどの程度可能にするのか?
- RQ4 prompting を通じて、未見タスクや分布外入力への一般化をモデルは示すか?
- RQ5各データ要素(画像、動画、注釈)が下流の性能にどの程度寄与しているか?
主な発見
- 訓練損失(パープレキシティ)は訓練とともに低下し、モデルサイズが大きいほど改善が速く、強力なスケーラビリティを示している。
- より大きなモデルは、セマンティックセグメンテーション、深度推定、表面法線推定、エッジ検出の5ショット設定でより低いパープレキシティを達成する。
- UVDv1でのアブレーションにより、各データ要素(ラベルなし画像、動画、注釈)が下流の性能にプラスの寄与をする。
- 逐次 prompting により、ビデオフレーム予測、回転とカテゴリ予測、簡易的な視覚的推論などのタスクを可能にし、未見のプロンプトへのある程度の一般化も含まれる。
- 見慣れないタスクの例としてPascal 3D+のキーポイント検出がタスク別訓練なしで81.2%PCKに達し、顕著な一般化を示す。提案手法は一部の視覚 prompting ベースラインより有利に比較される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。