QUICK REVIEW

[論文レビュー] Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator

Hanzhuo Huang, Yufan Feng|arXiv (Cornell University)|Sep 25, 2023

Generative Adversarial Networks and Image Synthesis被引用数 11

ひとこと要約

Free-Bloom は、ゼロショット、トレーニング不要のパイプラインで、ディレクターとして LLM を用いセマンティックなフレーム列を生成し、アニメーターとして事前学習済み Latent Diffusion Model (LDM) を用いて高品質で時間的一貫性のある動画を作成する。トレーニング不要のデュアルパス補間によりフレームレートを向上。

ABSTRACT

Text-to-video is a rapidly growing research area that aims to generate a semantic, identical, and temporal coherence sequence of frames that accurately align with the input text prompt. This study focuses on zero-shot text-to-video generation considering the data- and cost-efficient. To generate a semantic-coherent video, exhibiting a rich portrayal of temporal semantics such as the whole process of flower blooming rather than a set of "moving images", we propose a novel Free-Bloom pipeline that harnesses large language models (LLMs) as the director to generate a semantic-coherence prompt sequence, while pre-trained latent diffusion models (LDMs) as the animator to generate the high fidelity frames. Furthermore, to ensure temporal and identical coherence while maintaining semantic coherence, we propose a series of annotative modifications to adapting LDMs in the reverse process, including joint noise sampling, step-aware attention shift, and dual-path interpolation. Without any video data and training requirements, Free-Bloom generates vivid and high-quality videos, awe-inspiring in generating complex scenes with semantic meaningful frame sequences. In addition, Free-Bloom is naturally compatible with LDMs-based extensions.

研究の動機と目的

データとコストを節約したゼロショットのテキストから動画生成を動機づける。
LLMを活用してセマンティックに一貫したフレームプロンプトのシーケンスを生成する。
学習なしで、事前学習済みの LDM を適応させ、時間的・同一性を保つ一貫した動画フレームを生成する。
時間解像度とフレーム忠実性を向上させるために、補間とアテンション機構を導入する。

提案手法

入力テキストプロンプトから連続するフレームプロンプトのシーケンスを生成するために、LLMをディレクターとして用いる。
一貫したフレーム生成のため、フレーム間でのジョイントノイズサンプリングとステップ認識型アテンションシフトを可能にするよう Latent Diffusion Model を修正する。
セマンティクスと連続性を保った中間フレームを生成するために、潜在空間でトレーニングフリーのデュアルパス補間を実装する。
ノイズ除去が進むにつれて、アテンションを文脈的（最初/前の）フレームから現在のフレームへ移行させるステップ認識型アテンションシフトを適用する。
DDIM inversion と LDM ベースの拡張によるパーソナライズと画像から動画への拡張をオプションで追加。

実験結果

リサーチクエスチョン

RQ1ビデオデータや訓練なしで、LLM によって駆動されるセマンティックに一貫し、時間的にも一貫した動画をゼロショットパイプラインで生成できるか。
RQ2テキストプロンプト列の下で、同一性のある一貫性と時間的一貫性を持つ動画フレームを生成するように、LDMをどのように適応させられるか。
RQ3学習不要のデュアルパス補間はセマンティック忠実度を保ちつつ、時間的フレームレートを改善するか。
RQ4フレーム間のノイズサンプリングの結合とステップ認識型アテンションが、ビデオ品質と一貫性に与える影響は何か。

主な発見

方法	トレーニング不要	CLIP 指標 ↑	忠実度 ↑	時間的 ↑	意味的 ↑	ランク ↓
VideoFusion		0.483	3.436	3.889	3.267	2.317
LVDM	-	0.480	3.289	3.650	3.242	2.567
T2V-Zero	✓	0.479	3.486	2.783	3.025	3.033
Ours	✓	0.477 / 0.482*	4.133	3.267	3.867	2.083

Free-Bloom は、プロンプトから動画データや訓練なしで高品質で意味のある動画を生成できる。
ジョイントノイズサンプリングとステップ認識型アテンションシフトは、時間的および同一性の一貫性を向上させる。
デュアルパス補間は、文脈的および意味的内容を保ったまま時間解像度を向上させる。
定量的な結果は、ゼロショットおよび訓練済みベースラインと比較して、競争力のある CLIP ベースの指標と有利なユーザー調査のランキングを示している。
本手法は、個々のフレームの忠実度を維持しつつ、一貫した物語的連結を生成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。