[論文レビュー] ReDiStory: Region-Disentangled Diffusion for Consistent Visual Story Generation
ReDiStory は、同定性とフレーム固有プロンプトをデカップリングするトレーニング不要のプロンプト埋め込み再編成法で、フレーム間干渉を低減し、拡散モデルを変えずにマルチフレーム視覚ストーリーテリングにおける主題の一貫性を向上させる。
Generating coherent visual stories requires maintaining subject identity across multiple images while preserving frame-specific semantics. Recent training-free methods concatenate identity and frame prompts into a unified representation, but this often introduces inter-frame semantic interference that weakens identity preservation in complex stories. We propose ReDiStory, a training-free framework that improves multi-frame story generation via inference-time prompt embedding reorganization. ReDiStory explicitly decomposes text embeddings into identity-related and frame-specific components, then decorrelates frame embeddings by suppressing shared directions across frames. This reduces cross-frame interference without modifying diffusion parameters or requiring additional supervision. Under identical diffusion backbones and inference settings, ReDiStory improves identity consistency while maintaining prompt fidelity. Experiments on the ConsiStory+ benchmark show consistent gains over 1Prompt1Story on multiple identity consistency metrics. Code is available at: https://github.com/YuZhenyuLindy/ReDiStory
研究の動機と目的
- マルチフレーム視覚ストーリーテリングにおけるフレーム間の意味的干渉が同定性ドリフトを引き起こす原因を特定する。
- 推論時に同定性とフレーム意味論をデカップリングするトレーニング不要の枠組みを提案する。
- プロンプト埋め込み再編成がプロンプト忠実度を損なうことなく同定性の一貫性を改善することを示す。
提案手法
- 結合された同定性+フレームプロンプト埋め込みを同定性とフレーム固有の成分に分解する。
- 他のフレームへの埋め込み投影を介して共有方向を取り除くことでフレーム固有の埋め込みのデコリレーションを計算する。
- 再編成されたプロンプト埋め込みを再構成し、パラメータを変更せずに拡散モデルで各フレームを生成する。
- 追加の監視や最適化なしで推論時だけで動作する。
- 計算オーバーヘッドを分析する。これはフレーム数と二次的にスケールするが、拡散推論に比べて modest な増加に留まる。
実験結果
リサーチクエスチョン
- RQ1同定性関連の埋め込みとフレーム固有の埋め込みをデカップリングすることで、マルチフレーム生成におけるフレーム間干渉を減らせるか。
- RQ2推論時のプロンプト埋め込み再編成はプロンプト忠実度を保ちながら同定性の一貫性を改善できるか。
- RQ3提案手法の計算上のトレードオフは、ベースラインのトレーニング不要アプローチと比べてどうか。
主な発見
| Method | CLIP-T ↑ | CLIP-I ↑ | DreamSim ↓ | Steps | Memory (GB) ↓ | Inference Time (s) ↓ |
|---|---|---|---|---|---|---|
| Vanilla SD1.5 | 0.8353 | 0.7474 | 0.5873 | 50 | 4.73 | 2.4657 |
| Vanilla SDXL | 0.9074 | 0.8165 | 0.5292 | 50 | 16.04 | 13.0890 |
| BLIP-Diffusion | 0.7607 | 0.8863 | 0.2830 | 26 | 7.75 | 1.9284 |
| Textual Inversion | 0.8378 | 0.8229 | 0.4268 | 40 | 32.94 | 282.507 |
| The Chosen One | 0.7614 | 0.7831 | 0.4929 | 35 | 10.93 | 11.2073 |
| PhotoMaker | 0.8651 | 0.8465 | 0.3996 | 50 | 23.79 | 18.0259 |
| IP-Adapter | 0.8458 | 0.9429 | 0.1462 | 30 | 19.39 | 13.4594 |
| ConsiStory | 0.8769 | 0.8737 | 0.3188 | 50 | 34.55 | 34.5894 |
| StoryDiffusion | 0.8877 | 0.8755 | 0.3212 | 50 | 45.61 | 25.6928 |
| Naive Prompt Reweighting (NPR) | 0.8411 | 0.8916 | 0.2548 | 50 | 16.04 | 17.2413 |
| 1Prompt1Story | 0.8942 | 0.9117 | 0.1993 | 50 | 18.70 | 23.2088 |
| ReDiStory (Ours) | 0.8966 | 0.9149 | 0.1952 | 50 | 18.89 | 23.6413 |
- ReDiStory は、トレーニング不要法の中で最強のベースラインよりも一貫した同定性の一貫性をもたらす。
- ConsiStory+ ベンチマークの下で、ReDiStory は 1Prompt1Story よりも高い CLIP-I・低い DreamSim を達成しつつプロンプト忠実度(CLIP-T)を維持する。
- 手法はメモリと推論時間で小さなオーバーヘッドを生じるが、ベースラインと比較して合理的な範囲に留まる。
- アブレーションでは、再編成を取り除く、または同定性関連の再編成のみを用いると性能が劣化し、全体の ReDiStory が最良の結果を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。