[论文解读] ReDiStory: Region-Disentangled Diffusion for Consistent Visual Story Generation
ReDiStory 是一种无需训练的提示嵌入重组方法,通过解耦身份提示与帧特定提示以减少跨帧干扰,从而在多帧视觉故事中提高主体的一致性,而不改变扩散模型。
Generating coherent visual stories requires maintaining subject identity across multiple images while preserving frame-specific semantics. Recent training-free methods concatenate identity and frame prompts into a unified representation, but this often introduces inter-frame semantic interference that weakens identity preservation in complex stories. We propose ReDiStory, a training-free framework that improves multi-frame story generation via inference-time prompt embedding reorganization. ReDiStory explicitly decomposes text embeddings into identity-related and frame-specific components, then decorrelates frame embeddings by suppressing shared directions across frames. This reduces cross-frame interference without modifying diffusion parameters or requiring additional supervision. Under identical diffusion backbones and inference settings, ReDiStory improves identity consistency while maintaining prompt fidelity. Experiments on the ConsiStory+ benchmark show consistent gains over 1Prompt1Story on multiple identity consistency metrics. Code is available at: https://github.com/YuZhenyuLindy/ReDiStory
研究动机与目标
- 识别跨帧语义干扰导致多帧视觉叙事中身份漂移的原因。
- 提出一个无需训练的框架,在推理时解耦身份与帧语义。
- 证明提示嵌入重组在不牺牲提示保真度的前提下提升身份一致性。
提出的方法
- 将联合的身份+帧提示嵌入分解为身份和帧特定的分量。
- 通过投影到其他帧嵌入上来移除跨帧的共享方向,从而实现帧特定的嵌入去相关。
- 重组后的提示嵌入在不改变其参数的前提下,由扩散模型逐帧生成。
- 仅在推理时进行运算,无需额外监督或优化。
- 分析计算开销,随帧数平方增长但相对于扩散推理仍然适中。
实验结果
研究问题
- RQ1将身份相关和帧特定嵌入解耦是否能减少多帧生成中的跨帧干扰?
- RQ2推理时的提示嵌入重组是否能在保持提示保真度的同时改善身份一致性?
- RQ3与基线的无需训练方法相比,所提方法的计算权衡如何?
主要发现
| Method | CLIP-T ↑ | CLIP-I ↑ | DreamSim ↓ | Steps | Memory (GB) ↓ | Inference Time (s) ↓ |
|---|---|---|---|---|---|---|
| Vanilla SD1.5 | 0.8353 | 0.7474 | 0.5873 | 50 | 4.73 | 2.4657 |
| Vanilla SDXL | 0.9074 | 0.8165 | 0.5292 | 50 | 16.04 | 13.0890 |
| BLIP-Diffusion | 0.7607 | 0.8863 | 0.2830 | 26 | 7.75 | 1.9284 |
| Textual Inversion | 0.8378 | 0.8229 | 0.4268 | 40 | 32.94 | 282.507 |
| The Chosen One | 0.7614 | 0.7831 | 0.4929 | 35 | 10.93 | 11.2073 |
| PhotoMaker | 0.8651 | 0.8465 | 0.3996 | 50 | 23.79 | 18.0259 |
| IP-Adapter | 0.8458 | 0.9429 | 0.1462 | 30 | 19.39 | 13.4594 |
| ConsiStory | 0.8769 | 0.8737 | 0.3188 | 50 | 34.55 | 34.5894 |
| StoryDiffusion | 0.8877 | 0.8755 | 0.3212 | 50 | 45.61 | 25.6928 |
| Naive Prompt Reweighting (NPR) | 0.8411 | 0.8916 | 0.2548 | 50 | 16.04 | 17.2413 |
| 1Prompt1Story | 0.8942 | 0.9117 | 0.1993 | 50 | 18.70 | 23.2088 |
| ReDiStory (Ours) | 0.8966 | 0.9149 | 0.1952 | 50 | 18.89 | 23.6413 |
- ReDiStory 在无需训练的方法中对身份一致性相对最强基线获得持续改进。
- 在 ConsiStory+ 基准下,ReDiStory 在保持提示保真度(CLIP-T)的同时,CLIP-I 更高、DreamSim 更低,比 1Prompt1Story 表现更优。
- 方法在内存和推理时间上带来较小的开销,但相对于基线仍然是可以接受的(例如 modest 增加)。
- 消融实验显示,若移除重组或仅使用身份相关重组,性能下降;完全的 ReDiStory 提供最佳结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。