[论文解读] TimeColor: Flexible Reference Colorization via Temporal Concatenation
TimeColor 通过将异质、可变数量的参考帧串联成潜在帧,并应用时空对应遮罩注意力,将主体绑定到参考帧,从而提高色彩保真度与时间稳定性。
Most colorization models condition only on a single reference, typically the first frame of the scene. However, this approach ignores other sources of conditional data, such as character sheets, background images, or arbitrary colorized frames. We propose TimeColor, a sketch-based video colorization model that supports heterogeneous, variable-count references with the use of explicit per-reference region assignment. TimeColor encodes references as additional latent frames which are concatenated temporally, permitting them to be processed concurrently in each diffusion step while keeping the model's parameter count fixed. TimeColor also uses spatiotemporal correspondence-masked attention to enforce subject-reference binding in addition to modality-disjoint RoPE indexing. These mechanisms mitigate shortcutting and cross-identity palette leakage. Experiments on SAKUGA-42M under both single- and multi-reference protocols show that TimeColor improves color fidelity, identity consistency, and temporal stability over prior baselines.
研究动机与目标
- 动机:通过利用多样化参考(起始帧、任意帧、多参考表)来降低生产着色的劳动强度。
- 目标:开发一个在固定参数预算下支持可变数量、异质参考的扩散-变换器框架,同时确保主体–参考绑定和时间稳定性。
- 引入一个自动化数据收集流水线,用以创建大规模多参考着色数据用于训练。
提出的方法
- 将所有条件信号编码为通过时序串联注入的附加潜在帧,使得在固定骨干网络下实现可变参考条件。
- 使用模态不相容的 RoPE(旋转位置嵌入)来分离目标、草图与参考标记。
- 采用时空对应遮罩注意力,将每个主体区域绑定到其指定参考,并防止跨身份泄漏。
- 使用标准扩散目标进行训练,其中对目标潜在表示进行监督,而参考/草图作为条件信号。
- 通过自动化跟踪与分割(InternVL3、GroundingDINO、SAM2)构建大规模多参考数据集,并对每帧给出对应关系遮罩。
- 在 SAKUGA-42M 上使用起始帧、任意帧和多参考协议评估 TimeColor,并与基线在标准指标上比较。

实验结果
研究问题
- RQ1TimeColor 能否在不增加模型参数的情况下,对可变数量、异质参考进行稳健条件化?
- RQ2在多参考着色中,时序串联结合模态不相容 RoPE 与对应遮罩注意力是否降低了参考捷径与跨身份泄漏?
- RQ3在单参考与多参考设定下,TimeColor 在色彩保真、身份保持与时间稳定性方面的表现如何?
主要发现
- TimeColor 在 SAKUGA-42M 测试集的单参考与多参考设置中,在色彩保真度与时间连贯性方面均取得最佳分数。
- 在单参考的起始帧情形下,TimeColor 相较基线显著提升了 SSIM、PSNR、LPIPS、FVD 和 FID。
- 在任意帧和多参考情形中,TimeColor 仍具竞争力甚至优越,显示对参考多样性的鲁棒性。
- 消融研究表明模态不相容的 RoPE 和全时空对应遮罩注意力对于防止颜色泄漏与维持参考绑定至关重要。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。