Skip to main content
QUICK REVIEW

[論文レビュー] Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation

David Junhao Zhang, Jay Zhangjie Wu|arXiv (Cornell University)|Sep 27, 2023
Generative Adversarial Networks and Image Synthesis被引用数 15
ひとこと要約

Show-1 はピクセルベースのキーフレーム生成と潜在拡散ベースのアップスケーリングを組み合わせ、推論メモリを削減しつつ高解像度でテキストに整合した動画を生成します。2段階のアップスケール・パイプラインにより、低コストで強力なテキスト動画整合を実現します。

ABSTRACT

Significant advancements have been achieved in the realm of large-scale pre-trained text-to-video Diffusion Models (VDMs). However, previous methods either rely solely on pixel-based VDMs, which come with high computational costs, or on latent-based VDMs, which often struggle with precise text-video alignment. In this paper, we are the first to propose a hybrid model, dubbed as Show-1, which marries pixel-based and latent-based VDMs for text-to-video generation. Our model first uses pixel-based VDMs to produce a low-resolution video of strong text-video correlation. After that, we propose a novel expert translation method that employs the latent-based VDMs to further upsample the low-resolution video to high resolution, which can also remove potential artifacts and corruptions from low-resolution videos. Compared to latent VDMs, Show-1 can produce high-quality videos of precise text-video alignment; Compared to pixel VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G vs 72G). Furthermore, our Show-1 model can be readily adapted for motion customization and video stylization applications through simple temporal attention layer finetuning. Our model achieves state-of-the-art performance on standard video generation benchmarks. Our code and model weights are publicly available at https://github.com/showlab/Show-1.

研究の動機と目的

  • ピクセルベースと潜在ベース拡散モデルを組み合わせて、テキスト動画整合と視覚忠実度のバランスをとる動機づけ。
  • 低解像度のピクセルベースキーフレーム、時間的補間、および2段階の超解像による粗から細への動画生成パイプラインを開発する。
  • 推論時の計算コストを削減しつつ、テキスト-to-動画の整合を維持または改善する。
  • 潜在VDMの専門家翻訳が高品質な高解像度の洗練を可能にすることを示す。
  • 標準ベンチマーク(UCF-101、MSR-VTT)と人間評価を通じてアプローチを検証する。

提案手法

  • 低解像度で強いテキスト動画整合を持つキーフレームを生成するためにピクセルベースの Video UNet を用いる。
  • ピクセル拡散を用いた時間的補間モジュールを導入し、整合性を維持しつつ時間解像度を高める。
  • 二段階の超解像を適用する: (i) ピクセルベースのアップサンプリングで中間解像度へ、次に (ii) 高解像度への専門家翻訳を潜在ベースで適用し、コストを抑えつつディテールを改善。
  • 高度な高解像度の洗練のために潜在ベースの VDM を使用し、タイムステップ 0–900 の間だけ訓練して専門家翻訳者として機能させる。
  • 動作をモデル化するために2D UNet ブロックに時間的層(時間的畳み込みと時間的アテンション)を組み込む。
  • WebVid-10M で訓練・評価を行い、UCF-101 および MSR-VTT のベンチマークで評価する。

実験結果

リサーチクエスチョン

  • RQ1ピクセルベースの拡散による低解像度キーフレームと潜在拡散による高解像度アップスケーリングを組み合わせたハイブリッドモデルは、低コストで優れたテキスト動画整合と視覚忠実度を達成できるか。
  • RQ2低解像度キーフレーム、補間、アップスケーリングという異なる段階でピクセルベースモジュールと潜在ベースモジュールを使用することの、テキスト動画整合と品質への影響は何か。
  • RQ3潜在ベース VDM の専門家翻訳(0–900 タイムステップ)は、標準の 0–1000 タイムステップと比べて高解像度の洗練を改善するか。
  • RQ4Show-1 は標準ベンチマーク(UCF-101、MSR-VTT)で最先端手法と比較してどの程度の性能を示すか。

主な発見

  • Show-1 は推論時の GPU メモリ 15G で強力なテキスト動画整合と高視覚品質を達成する。
  • MSR-VTT では Show-1 が最良の FID-vid(13.08)と FVD(538)を達成し、CLIPSIM は 0.3072。
  • UCF-101 では Show-1 が競争力のある IS(35.42)と FVD(394.46)を示す。
  • アブレーションにより、低解像度ピクセルベースのキーフレームと高解像度潜在翻訳の組み合わせが、全ピクセルまたは全潜在のベースラインよりも計算量を抑えつつ CLIPSIM を最大化する最適な組み合わせであることが示される。
  • 人間評価は、ビデオ品質とテキスト動画整合の面で Show-1 を ModelScope および ZeroScope より優れていると評価(指標を跨ぐ多数の評価で優先)。
  • 組み合わせのアブレーションは、ピクセルベース低解像度 + 潜在高解像度が整合と効率の最適なトレードオフであることを確認する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。