QUICK REVIEW

[論文レビュー] Cosmos World Foundation Model Platform for Physical AI

NVIDIA, :|arXiv (Cornell University)|Jan 7, 2025

Distributed and Parallel Computing Systems被引用数 7

ひとこと要約

この論文は Cosmos World Foundation Model Platform を紹介します。物理AIのための事前学習済みワールドファウンデーションモデル（WFM）エコシステムで、事前トレーニング、ポストトレーニング、ビデオデータキュレーション、トークナイザー、ガードレールを詳述し、NVIDIA Cosmos を通じてすべてオープンソース化されています。

ABSTRACT

Physical AI needs to be trained digitally first. It needs a digital twin of itself, the policy model, and a digital twin of the world, the world model. In this paper, we present the Cosmos World Foundation Model Platform to help developers build customized world models for their Physical AI setups. We position a world foundation model as a general-purpose world model that can be fine-tuned into customized world models for downstream applications. Our platform covers a video curation pipeline, pre-trained world foundation models, examples of post-training of pre-trained world foundation models, and video tokenizers. To help Physical AI builders solve the most critical problems of our society, we make Cosmos open-source and our models open-weight with permissive licenses available via https://github.com/nvidia-cosmos/cosmos-predict1.

研究の動機と目的

世界ファウンデーションモデル（WFM）プラットフォームを提案し、物理AIシステムの安全かつスケーラブルな開発を実現する。
一般的なWFMの事前学習とポストトレーニングのパラダイムを開発し、対象となる物理AIタスクへの特化を可能にする。
高品質なWFMトレーニングを支えるスケーラブルなビデオデータキュレーションとトークナイゼーションのパイプラインを作成する。
開発者がアクセスしやすく安全に使用できるよう、ガードレールとオープンライセンスを提供する。

提案手法

ビデオキュレーター、ビデオトークナイザー、事前トレーニング済みWFM、ポストトレーニングワークフロー、ガードレールを組み合わせた Cosmos WFM プラットフォームを構築する。
継続的および離散的なビデオトークンを用いた、拡散ベースと自己回帰トランスフォーマーベースの2つのスケーラブルな事前学習アプローチを実装する。
連続的および離散的な因果的ビデオトークンizers を設計・訓練し、物理的にリッチな内容を保持しつつビデオデータを圧縮する。
カメラ姿勢、ロボットタスク、自動運転シナリオにWFMsを条件づけるポストトレーニングパイプラインを設計・訓練する。
データ処理をスケールさせるためのデータキュレーション手順（分割、フィルタ、注釈、重複排除、シャード化）と、Rayベースのインフラストラクチャスタックを確立する。
NVIDIA Cosmos を通じて事前学習済みモデルとトークナイザーを許容的ライセンスで提供する。

Cosmos World Foundation Model Platform for Physical AI

実験結果

リサーチクエスチョン

RQ1広範なビデオデータで学習した世界ファウンデーションモデルが、ターゲット環境でのポストトレーニング後にさまざまな物理AIシナリオに一般化できるか。
RQ2物理的ダイナミクスの学習を最適化しつつ計算的に扱いやすいデータキュレーションとトークナイゼーション戦略は何か。
RQ3世界生成と下流の物理AIタスクにおいて、拡散ベースと自己回帰WFMの有効性はどう異なるか。
RQ4入力と出力を保護しつつ、開発者にとって有用性を維持するためにガードレールはどのように機能するべきか。

主な発見

データセット	手法	適合率	再現率	F1
BBC	PySceneDetect	0.894	0.884	0.889
BBC	Panda70M	0.959	0.653	0.777
BBC	TransNetV2	0.983	0.951	0.967
BBC	AutoShot	0.984	0.922	0.952
RAI	PySceneDetect	0.856	0.807	0.831
RAI	Panda70M	0.933	0.746	0.829
RAI	TransNetV2	0.918	0.921	0.919
RAI	AutoShot	0.889	0.923	0.906
SHOT	PySceneDetect	0.769	0.673	0.718
SHOT	Panda70M	0.949	0.462	0.622
SHOT	TransNetV2	0.883	0.767	0.821
SHOT	AutoShot	0.866	0.804	0.834
ClipShots	PySceneDetect	0.395	0.602	0.477
ClipShots	Panda70M	0.649	0.424	0.513
ClipShots	TransNetV2	0.685	0.772	0.726
ClipShots	AutoShot	0.653	0.781	0.711

事前学習済みのWFMは高品質で3D一貫性のあるビデオを生成し、ポストトレーニングによりカメラ制御、ロボティクス、自動運転タスクへ特化できる。
スケーラブルなビデオキュレーションパイプラインは、20M時間のビデオプールから事前学習用約100Mクリップ、微調整用約10Mを生み出す。
連続トークンと離散トークンを用いた2つのトランスフォーマーベースモデルファミリー（拡散と自己回帰）は、スケーラブルな世界生成能力を示す。
Cosmos Tokenizer は連続的および離散的トークン化を因果設計で提供し、共同の画像-ビデオトークン化と様々なアスペクト比に対応する効率的な学習をサポートする。
有害な入力と出力をブロックするガードレールシステム（事前ガードとポストガード）を実装し、より安全なデプロイを実現する。
プラットフォームとモデルはオープンソースとして公開されており（事前学習済みWFMとトークナイザー）、NVIDIA Cosmos ライセンスで提供される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。