[論文レビュー] Wan: Open and Advanced Large-Scale Video Generative Models
Wanは、オープンな大規模ビデオ基盤モデルのスイート(1.3Bおよび14B)を提示し、データ/モデルのスケーリング、消費者向けGPUの効率的な使用、およびオープンソース公開により、タスクを横断した強力なビデオ生成を実証します。
This report presents Wan, a comprehensive and open suite of video foundation models designed to push the boundaries of video generation. Built upon the mainstream diffusion transformer paradigm, Wan achieves significant advancements in generative capabilities through a series of innovations, including our novel VAE, scalable pre-training strategies, large-scale data curation, and automated evaluation metrics. These contributions collectively enhance the model's performance and versatility. Specifically, Wan is characterized by four key features: Leading Performance: The 14B model of Wan, trained on a vast dataset comprising billions of images and videos, demonstrates the scaling laws of video generation with respect to both data and model size. It consistently outperforms the existing open-source models as well as state-of-the-art commercial solutions across multiple internal and external benchmarks, demonstrating a clear and significant performance superiority. Comprehensiveness: Wan offers two capable models, i.e., 1.3B and 14B parameters, for efficiency and effectiveness respectively. It also covers multiple downstream applications, including image-to-video, instruction-guided video editing, and personal video generation, encompassing up to eight tasks. Consumer-Grade Efficiency: The 1.3B model demonstrates exceptional resource efficiency, requiring only 8.19 GB VRAM, making it compatible with a wide range of consumer-grade GPUs. Openness: We open-source the entire series of Wan, including source code and all models, with the goal of fostering the growth of the video generation community. This openness seeks to significantly expand the creative possibilities of video production in the industry and provide academia with high-quality video foundation models. All the code and models are available at https://github.com/Wan-Video/Wan2.1.
研究の動機と目的
- 拡散-トランスフォーマーベースのバックボーンを用いた、開かれた(オープン)でスケーラブルなビデオ生成を実証する。
- 多様なビデオタスクに対応する、総合的なモデルセット(1.3B および 14B)を展示する。
- ビデオ生成を前進させるためのデータ選定、新規 VAE、スケーラブルな事前学習、自動評価を強調する。
- アクセス可能性を広げるために、消費者向けGPU対応の構成を提供する。
提案手法
- ビデオ生成のために拡散-トランスフォーマーアーキテクチャを基盤とする。
- ビデオモデリングを強化する新規 VAE コンポーネントを導入する。
- 数十億の画像と動画を対象に、スケーラブルな事前学習戦略を開発する。
- 大規模データを整備し、自動評価指標を実装する。
- コミュニティ利用のために、全コードベースとすべてのモデルをオープンソース化する。
実験結果
リサーチクエスチョン
- RQ1標準ベンチマーク全体で、オープンで大規模なビデオ基盤モデルは、オープンソースおよび商業のビデオ生成システムを上回ることができるか。
- RQ2データとモデルのスケールがビデオ生成の品質と効率性にどのように影響するか。
- RQ3消費者向けGPU対応の 1.3B モデルが、効率性を保ちながら強力な能力を発揮できるか。
- RQ4新規 VAE と自動評価がビデオ生成のパフォーマンスへ与える影響は何か。
- RQ5オープン性がビデオ生成コミュニティの進展をどの程度加速させるか。
主な発見
- 数十億の画像と動画で訓練された 14B Wan モデルは、内部・外部のベンチマークで、既存のオープンソースおよび一部の商用ソリューションと比べて優れた性能を示す。
- Wan は 1.3B と 14B の2つのモデルを提供し、複数の下流タスクに対して効率性と有効性をカバーする。
- 1.3B モデルは、約 8.19 GB VRAM を使用して顕著な消費者向け GPU VRAM の効率を達成する。
- このスイートはコードとすべてのモデルを含めて完全にオープンソース化されており、ビデオ生成コミュニティの成長を促進する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。