[論文レビュー] ID-Animator: Zero-Shot Identity-Preserving Human Video Generation
ID-Animator は、軽量なフェイスアダプターを事前学習済みのテキスト-to-ビデオ拡散モデルと特別に構築されたID指向データセットと統合することにより、ファインチューニングなしで単一の参照画像からゼロショットかつアイデンティティを保持した人間ビデオ生成を実現します。
Generating high-fidelity human video with specified identities has attracted significant attention in the content generation community. However, existing techniques struggle to strike a balance between training efficiency and identity preservation, either requiring tedious case-by-case fine-tuning or usually missing identity details in the video generation process. In this study, we present extbf{ID-Animator}, a zero-shot human-video generation approach that can perform personalized video generation given a single reference facial image without further training. ID-Animator inherits existing diffusion-based video generation backbones with a face adapter to encode the ID-relevant embeddings from learnable facial latent queries. To facilitate the extraction of identity information in video generation, we introduce an ID-oriented dataset construction pipeline that incorporates unified human attributes and action captioning techniques from a constructed facial image pool. Based on this pipeline, a random reference training strategy is further devised to precisely capture the ID-relevant embeddings with an ID-preserving loss, thus improving the fidelity and generalization capacity of our model for ID-specific video generation. Extensive experiments demonstrate the superiority of ID-Animator to generate personalized human videos over previous models. Moreover, our method is highly compatible with popular pre-trained T2V models like animatediff and various community backbone models, showing high extendability in real-world applications for video generation where identity preservation is highly desired. Our codes and checkpoints are released at https://github.com/ID-Animator/ID-Animator.
研究の動機と目的
- IDごとにトレーニングやファインチューニングを行わず、アイデンティティ固有のビデオ生成を動機づけ、実現する。
- ID指向のデータセット構築パイプラインを開発し、IDを保持するビデオ生成を支える。
- ランダム参照訓練戦略を通じて、IDに関連する特徴をIDに関係ない内容から分離する。
- 既存のコミュニティT2Vモデルとバックボーンとの互換性と拡張性を示す。
提案手法
- 軽量なフェイスアダプターを追加した事前学習済みのテキスト-to-ビデオ拡散バックボーン(AnimateDiff)を使用。
- 学習可能なクエリベースの画像エンコーダを介してアイデンティティプロンプトを注入するため、クロスアテンションにおける画像条件とテキスト条件をデカップル。
- CelebV-HQ のキャプションを分離された人間属性とアクションキャプションに書き換え、顔画像プールを構築することでID指向のデータセットを構築。
- 顔プールからアイデンティティ参照をサンプリングしてIDに関連しない内容を減らし、アイデンティティ埋め込み学習を導くランダム参照訓練を導入。
- 単一の参照画像への依存を最小化し、アイデンティティ忠実度を向上させるランダムフェース参照訓練戦略を採用。
- ControlNet およびコミュニティモデルとの互換性を実証し、追加の調整なしでゼロショットのアイデンティティを保持した生成を示す。

実験結果
リサーチクエスチョン
- RQ1各IDごとにファインチューニングせずに、ゼロショットのアイデンティティ特化型人間ビデオ生成を実現できるか?
- RQ2デカップルCaptioningとランダム参照訓練パイプラインは、ビデオ生成におけるアイデンティティ忠実度と指示追従性を向上させるか?
- RQ3ID-Animator は、既存の T2V バックボーンおよびコミュニティモデルとのID保持型ビデオ生成への統合性はどの程度か?
主な発見
- ID-Animator は、モデルのチューニングなしで単一の顔画像からアイデンティティ特異的なビデオ生成を可能にする。
- トレーニングはアダプターのパラメータのみを必要とし、A100 GPU で1日以内に完了し、3090 GPU で21フレームのビデオを生成する。
- ID指向データセットの再構築とランダム参照訓練は、アイデンティティに関連しない特徴の影響を低減し、忠実度と指示追従性を向上させる。
- 本手法は、人気の事前学習済みT2Vモデルとバックボーン(例:AnimateDiff)およびControlNetのようなCondNet派生を含むコミュニティモデルとも互換性がある。
- 定性的結果は、多様な被写体に対してIP-Adapterベースのベースラインと比較して、アイデンティティ保持とモーション忠実度が優れていることを示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。