[論文レビュー] Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos
この論文は、ポーズ注釈付き画像データとポーズなし動画を、ポーズ制御可能なテキスト対ビデオ生成へと変換する二段階学習スキームを提案し、時間モジュールを備えた事前学習済みのテキスト対画像モデルを活用して、連続的な動画を作成します。
Generating text-editable and pose-controllable character videos have an imperious demand in creating various digital human. Nevertheless, this task has been restricted by the absence of a comprehensive dataset featuring paired video-pose captions and the generative prior models for videos. In this work, we design a novel two-stage training scheme that can utilize easily obtained datasets (i.e.,image pose pair and pose-free video) and the pre-trained text-to-image (T2I) model to obtain the pose-controllable character videos. Specifically, in the first stage, only the keypoint-image pairs are used only for a controllable text-to-image generation. We learn a zero-initialized convolutional encoder to encode the pose information. In the second stage, we finetune the motion of the above network via a pose-free video dataset by adding the learnable temporal self-attention and reformed cross-frame self-attention blocks. Powered by our new designs, our method successfully generates continuously pose-controllable character videos while keeps the editing and concept composition ability of the pre-trained T2I model. The code and models will be made publicly available.
研究の動機と目的
- デジタルヒューマンのためのポーズ制御可能な動画生成を、ポーズ-動画のペアデータが不足している点にもかかわらず動機づける。
- 豊富な画像-ポーズペアとポーズなし動画を活用して、動画対応モデルを訓練する。
- 事前学習済みのテキスト対画像モデルの意味編集能力と構成力を維持する。
- ポーズ誘導運動とテキストベースの外観制御による時間的一貫性のある動画を達成する。
提案手法
- 事前学習済みのテキスト対画像拡散モデル(Stable Diffusion)上に基づく二段階学習スキームを導入する。
- Stage 1 は LAION-Pose データを用いて、残差接続を介して U-Net に多層ポーズエンコーダを注入し、ポーズ条件付き画像生成を可能にする。
- Stage 2 は、Pseudo-3D convolution でモデルを 3D 化し、時系列自己注意とフレーム間自己注意を追加して、ポーズに基づくモーションと時間的一貫性を実現し、ポーズなし動画データでファインチューニングする。
- 各ステージごとに時系列モジュールとポーズエンコーダのパラメータのみ更新し、その他は事前学習済みモデルを凍結する。
- 推論はテキストプロンプトとポーズ列を組み合わせてポーズ制御付き動画を生成する。DDIM サンプリングと classifier-free ガイダンスを使用。
実験結果
リサーチクエスチョン
- RQ1画像-ポーズペアからポーズ制御を学習して、それを時系列モデリングを通じて動画生成へ転移できるか?
- RQ2ポーズ条件付けと時系列一貫性を分離することで、ポーズ動画の整合性と時系列安定性が改善されるか?
- RQ3事前学習済みの T2I 拡散モデルを、最小データとパラメータ更新で動画生成へ拡張できるか?
- RQ4アプローチは、元のモデルの概念生成能力と構成品質を保持しつつ、ポーズ制御を追加できるか?
主な発見
| Method | CS | QU (%) | PA (%) | FC (%) |
|---|---|---|---|---|
| FOMM (Siarohin et al. 2019) | 22.93 | 0.8 | 11.7 | 81.25 |
| Everybody dance now (Chan et al. 2019) | 23.04 | 1.3 | 13.7 | 79.83 |
| Tune-A-Video (Wu et al. 2022) | 23.57 | 23.81 | 27.74 | 93.78 |
| ControlNet (Zhang and Agrawala 2023) | 22.31 | 6.69 | 33.23 | 54.35 |
| T2I adapter (Mou et al. 2023) | 22.42 | 8.27 | 33.47 | 53.86 |
| Masactrl (Cao et al. 2023) | 23.64 | 19.17 | 33.19 | 87.64 |
| Ours | 24.09 | 39.96 | 34.92 | 93.36 |
- 本手法は、いくつかのベースラインよりも CLIP ベースの動画-テキスト整合性が高い。
- 主観的評価は、動画品質において Tune-A-Video および ControlNet より提案手法を支持する。
- ポーズ精度は 1024 動画サンプルで ControlNet に匹敵する。
- モデルはフレームの一貫性と時系列の連続性を強く示し、いくつかのベースラインより連続性で優れている。
- アブレーションは、残差ポーズエンコーディングが結合より生成品質をより良く保持し、より多くのレイヤへ制御を注入するとポーズ-フレームの整合性が改善されることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。