Skip to main content
QUICK REVIEW

[論文レビュー] TimeColor: Flexible Reference Colorization via Temporal Concatenation

Bryan Constantine Sadihin, Yihao Meng|arXiv (Cornell University)|Jan 1, 2026
Generative Adversarial Networks and Image Synthesis被引用数 0
ひとこと要約

TimeColorは、参照を潜在フレームとして連結し、時空間対応付きマスク付きアテンションを適用することにより、異質で可変数の参照を用いてスケッチベースの動画着色を実現し、色忠実度と時間的一貫性を向上させる。

ABSTRACT

Most colorization models condition only on a single reference, typically the first frame of the scene. However, this approach ignores other sources of conditional data, such as character sheets, background images, or arbitrary colorized frames. We propose TimeColor, a sketch-based video colorization model that supports heterogeneous, variable-count references with the use of explicit per-reference region assignment. TimeColor encodes references as additional latent frames which are concatenated temporally, permitting them to be processed concurrently in each diffusion step while keeping the model's parameter count fixed. TimeColor also uses spatiotemporal correspondence-masked attention to enforce subject-reference binding in addition to modality-disjoint RoPE indexing. These mechanisms mitigate shortcutting and cross-identity palette leakage. Experiments on SAKUGA-42M under both single- and multi-reference protocols show that TimeColor improves color fidelity, identity consistency, and temporal stability over prior baselines.

研究の動機と目的

  • 動機: 多様な参照(開始フレーム、任意のフレーム、複数参照シート)を活用して制作着色の労力を削減する。
  • 目標: 固定パラメータ予算を維持しつつ、可変数・異種の参照をサポートする拡散-トランスフォーマーフレームワークを開発し、対象と参照の結合と時間的安定性を確保する。
  • 自動データ収集パイプラインを導入し、トレーニング用の大規模な多参照着色データを作成する。

提案手法

  • すべての conditioning signal を追加的潜在フレームとしてエンコードし、時間的連結を介して変数参照条件付けを固定バックボーンで可能にする。
  • 対象、スケッチ、参照トークンを分離するモダリティ区別型 RoPE(Rotary Position Embedding)を使用する。
  • 時空間対応マスク付きアテンションを用いて各対象領域を指定された参照に結びつけ、アイデンティティ間の漏洩を防ぐ。
  • ターゲット潜在表現には監督信号を適用しつつ、参照/スケッチは Conditioning signal として扱う標準的な拡散目的で学習する。
  • 自動追跡とセグメンテーション(InternVL3、GroundingDINO、SAM2)を用いた大規模な多参照データセットをフレームごとの対応マスク付きで構築する。
  • 開始フレーム、任意フレーム、複数参照プロトコルでTimeColorをSAKUGA-42M上で評価し、標準指標を用いて従来ベースラインと比較する。
Figure 1: TimeColor enables sketch video colorization with a fixed parameter budget, conditioning on heterogeneous, variable-count references. It generates identity-consistent, temporally stable colorized animations from sketch videos, aiming to reduce manual 2D colorization effort.
Figure 1: TimeColor enables sketch video colorization with a fixed parameter budget, conditioning on heterogeneous, variable-count references. It generates identity-consistent, temporally stable colorized animations from sketch videos, aiming to reduce manual 2D colorization effort.

実験結果

リサーチクエスチョン

  • RQ1TimeColorはモデルパラメータを増やさずに可変数・異種の参照を条件付けできるか。
  • RQ2モダリティ区別RoPEと対応マスク付きアテンションを用いた時空間連結は、多参照着色における参照のショートカット化や跨アイデンティティ漏洩を低減するか。
  • RQ3単一参照と複数参照設定で、色忠実度・アイデンティティ保持・時間的安定性の観点でTimeColorはどう機能するか。

主な発見

方法SSIM ↑PSNR ↑LPIPS ↓FVD ↓FID ↓
VACE0.481012.850.4018757.50113.06
LVCD0.546911.180.3996522.2175.86
AniDoc0.753620.790.2133256.3365.79
ToonCrafter0.748721.750.1895268.0245.26
ToonComposer0.704620.090.2371302.1544.79
LongAnimation0.719320.340.2461292.5454.41
TimeColor (Ours)0.849624.950.1309158.5838.88
TimeColor (Prop. Masks)0.758518.950.2364260.8161.62
VACE0.460012.240.4238772.32116.73
LVCD0.518910.490.4436597.9489.18
AniDoc0.718918.970.2555306.0773.99
ToonCrafter0.695719.470.2415322.1454.07
ToonComposer0.565715.310.3611457.3767.68
LongAnimation0.659218.040.3105359.9866.07
TimeColor (Ours)0.807121.980.1822204.0749.01
VACE0.33699.760.5342888.22132.90
LVCD0.484610.580.5198696.53115.30
AniDoc0.579813.500.4042505.83109.25
ToonCrafter0.500213.020.4173500.4499.17
ToonComposer0.429412.000.5135501.5487.86
LongAnimation0.473112.680.4841552.10100.64
TimeColor (Ours)0.758918.890.2361257.4161.78
TimeColor (Prop. Masks)0.758518.950.2364260.8161.62
  • TimeColorはSAKUGA-42M テストセットにおける色忠実度と時間的一貫性で設定全般で最高スコアを達成した(単一参照・複数参照)。
  • 単一参照の開始フレームでは、TimeColorはSSIM、PSNR、LPIPS、FVD、FIDをベースラインより顕著に改善した。
  • 任意フレームおよび複数参照の領域でもTimeColorは競争力が高く、参照多様性へ頑健性を示した。
  • アブレーションにより、モダリティ区別RoPEと完全な時空間対応マスク付きアテンションが、色漏れを防ぎ参照結合を維持するうえで重要であることが示された。
Figure 2: Overview of TimeColor . Given a sketched video and a variable-length reference bank (starting-frame, arbitrary-frame, and multi-reference cues), TimeColor conditions a DiT video diffusion model via temporal token concatenation, modality-disjoint RoPE, and correspondence-masked attention to
Figure 2: Overview of TimeColor . Given a sketched video and a variable-length reference bank (starting-frame, arbitrary-frame, and multi-reference cues), TimeColor conditions a DiT video diffusion model via temporal token concatenation, modality-disjoint RoPE, and correspondence-masked attention to

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。