[論文レビュー] FLUXSynID: A Synthetic Face Dataset with Document and Live Images
この論文は、LivePortrait と呼ばれる非拡散ではない暗黙的キーポイントベースの動画駆動ポートレートアニメーションフレームワークを提案し、高品質で制御可能かつ効率的なアニメーションを実現するために、 stitching と retargeting モジュールを強化している。
FLUXSynID: A Synthetic Face Dataset with Document and Live Images FLUXSynID is a high-resolution synthetic identity dataset containing 14,889 unique synthetic identities, each represented through a document-style image and three live capture variants. Identities are generated using the FLUX.1 [dev] diffusion model, guided by user-defined identity attributes such as gender, age, region of origin, and other various identity features. The dataset is created to support biometric research, including face recognition and morphing attack detection. File Structure Each identity has a dedicated folder (named as a 12-digit hex string, e.g., 000e23cdce23) containing the following 5 files: 000e23cdce23_f.json — metadata including sampled identity attributes, prompt, generation seed, etc. (_f = female; _m = male; _nb = non-binary) 000e23cdce23_f_doc.png — document-style frontal image 000e23cdce23_f_live_0_e_d1.jpg — live image generated with LivePortrait (_e = expression and pose) 000e23cdce23_f_live_0_a_d1.jpg — live image via Arc2Face (_a = arc2face) 000e23cdce23_f_live_0_p_d1.jpg — live image via PuLID (_p = pulid) All document and LivePortrait/PuLID images are 1024×1024. Arc2Face images are 512×512 due to original model constraints. Attribute Sampling and Prompting The attributes/ directory contains all information about how identity attributes were sampled: A set of .txt files (e.g., ages.txt, eye_shape.txt, body_type.txt) — each lists the possible values for one attribute class, along with their respective sampling probabilities. file_probabilities.json — defines the inclusion probability for each attribute class (i.e., how likely a class such as "eye shape" is to be included in a given prompt). attribute_clashes.json — specifies rules for resolving semantically conflicting attributes. Each clash defines a primary attribute (to be kept) and secondary attributes (to be discarded when the clash occurs). Prompts are generated automatically using Qwen2.5 large language model, based on selected attributes, and used to condition FLUX.1 [dev] during image generation. Live Image Generation Each synthetic identity has three live image-style variants: LivePortrait: expression/pose changes via keypoint-based retargeting Arc2Face: natural variation using identity embeddings (no prompt required) PuLID: identity-aware generation using prompt, embedding, and edge-conditioning with a customized FLUX.1 [dev] diffusion model These approaches provide both controlled and naturalistic identity-consistent variation. Filtering and Quality Control Included are 9 supplementary text files listing filtered subsets of identities. For instance, file similarity_filtering_adaface_thr_0.333987832069397_fmr_0.0001.txt contains identities retained after filtering out overly similar faces using AdaFace FRS under the specified threshold and false match rate (FMR). Usage and Licensing This dataset is licensed under the Creative Commons Attribution Non Commercial 4.0 International (CC BY-NC 4.0) license.You are free to use, share, and adapt the dataset for non-commercial purposes, provided that appropriate credit is given. The images in this dataset were generated using the FLUX.1 [dev] model by Black Forest Labs, which is made available under their Non-Commercial License. While this dataset does not include or distribute the model or its weights, the images were produced using that model. Users are responsible for ensuring that their use of the images complies with the FLUX.1 [dev] license, including any restrictions it imposes. Acknowledgments The FLUXSynID dataset was developed under the EINSTEIN project. The EINSTEIN project is funded by the European Union (EU) under G.A. no. 101121280 and UKRI Funding Service under IFS reference 10093453. Views and opinions expressed are however those of the author(s) only and do not necessarily reflect the views of the EU/Executive Agency or UKRI. Neither the EU nor the granting authority nor UKRI can be held responsible for them.
研究の動機と目的
- 駆動信号(動画、運動、または生成)を用いて、単一のソース画像から効率的で制御可能なポートレートアニメーションを実現することを動機付ける。
- 高忠実度と効率性を維持しつつ、スタイル化されたポートレートやクロスアイデンティティの状況への一般化を向上させる。
- 計算オーバーヘッドをほとんど増加さずに制御性を高めるための仕組み( stitching と retargeting )を開発する。
提案手法
- Face Vid2vid をベースに拡張を施した、非拡散の暗黙的キーポイントベースのフレームワークを採用する。
- 混合画像–動画トレーニング戦略と大規模データセット(約69Mフレーム)を用い、一般化を向上させる。
- 正準キーポイント学習、頭部姿勢、 表情変形を、SPADEベースの生成器を備えた単一ネットワークに統合する。
- 駆動時のテクスチャ安定化のため、明示的なスケール係数を用いたスケーラブルな動作変換を導入する。
- 目と口のランドマークにWing lossを適用した、ランドマーク誘導型の暗黙的キーポイント最適化を組み込む。
- 階層化された知覚損失とGAN損失、およびface-id lossを実装して、アイデンティティを保持し、テクスチャ品質を向上させる。
- stitching モジュールと、 eyes と lips の二つの retargeting モジュールを導入して、ほとんど追加のオーバーヘッドなしに制御性を高める。
- Stitching モジュールは、元の画像空間へ貼り戻す際に、アイデンティティ間および領域間の運動を整合させる。
実験結果
リサーチクエスチョン
- RQ1暗黙的キーポイントをどのように活用して、質の高い、制御可能なポートレートアニメーションを効率的に実現できるか。
- RQ2混合画像–動画トレーニングは、スタイル化されたポートレートやクロスアイデンティティのポートレートへの一般化を改善できるか。
- RQ3stitching および retargeting モジュールは、重大な計算コストをかけずに制御性を改善できるか。
主な発見
- Ours モデルは、self-reenactment および cross-reenactment タスクにおいて、いくつかの non-diffusion および diffusion ベースラインと比べて競争力がある、あるいはそれを上回る定量指標を達成する。
- Stitching は肩の整合性を一貫して保ち、元の画像空間へ貼り戻す際の空間的ずれを低減する。
- 目と唇の retargeting モジュールは、クロスアイデンティティ駆動時に表現忠実度を向上させつつ、制御性を保ち、アイデンティティを保持する調整を提供する。
- RTX 4090 での推論速度は 12.8 ms に達し、拡散ベース手法に対する強い効率性の優位性を示している。
- Voxceleb、MEAD、RAVDESS、AAHQ、およびスタイル加工された LightStage由来データを用いた混合画像–動画トレーニング戦略は、スタイル化されたポートレートへの一般化を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。