[논문 리뷰] TimeColor: Flexible Reference Colorization via Temporal Concatenation
TimeColor는 이질적이고 가변 개수의 참조를 잠재 프레임으로 연결하고 시공간 대응 마스크가 적용된 어텐션을 사용하여 피사체를 참조와 연결함으로써 스케치 기반 비디오 색상화를 가능하게 하여 색 정확도와 시간적 안정성을 개선한다.
Most colorization models condition only on a single reference, typically the first frame of the scene. However, this approach ignores other sources of conditional data, such as character sheets, background images, or arbitrary colorized frames. We propose TimeColor, a sketch-based video colorization model that supports heterogeneous, variable-count references with the use of explicit per-reference region assignment. TimeColor encodes references as additional latent frames which are concatenated temporally, permitting them to be processed concurrently in each diffusion step while keeping the model's parameter count fixed. TimeColor also uses spatiotemporal correspondence-masked attention to enforce subject-reference binding in addition to modality-disjoint RoPE indexing. These mechanisms mitigate shortcutting and cross-identity palette leakage. Experiments on SAKUGA-42M under both single- and multi-reference protocols show that TimeColor improves color fidelity, identity consistency, and temporal stability over prior baselines.
연구 동기 및 목표
- 동기: 다양한 참조(시작 프레임, 임의 프레임, 다중 참조 시트)를 활용하여 제작 색보정의 작업량을 줄인다.
- 목표: 고정 매개변수 예산으로 가변 개수의 이질적 참조를 지원하는 확산-트랜스포머 프레임워크를 개발하되 피사체–참조 바인딩과 시간적 안정성을 보장한다.
- 대규모 다중 참조 데이터 학습을 위한 자동화된 데이터 수집 파이프라인을 도입한다.
제안 방법
- 모든 조건 신호를 시퀀스 연결을 통해 추가 잠재 프레임으로 주입하여 고정 백본으로 가변 참조 조건화를 가능하게 한다.
- 타깃, 스케치, 참조 토큰을 구분하기 위해 모달리티-분리 로터리 포지션 임베딩(RoPE)을 사용한다.
- 각 피사체 영역을 지정된 참조에 바인딩하고 신원 간 누출을 방지하기 위해 시공간 대응 마스크 어텐션을 사용한다.
- 참조/스케치는 조건 신호로 사용되고 대상 잠재변수에 감독이 적용되는 표준 확산 목표로 학습한다.
- 매 프레임 대응 마스크를 갖춘 자동 추적 및 분할(InternVL3, GroundingDINO, SAM2)을 통해 대규모 다중 참조 데이터셋을 구성한다.
- 표준 지표를 사용하여 시작 프레임, 임의 프레임 및 다중 참조 프로토콜 하에서 SAKUGA-42M에서 TimeColor를 평가하고 이전 베이스라인과 비교한다.

실험 결과
연구 질문
- RQ1TimeColor가 모델 매개변수를 증가시키지 않으면서 가변 개수의 이질적 참조에 대해 견고하게 조건화할 수 있는가?
- RQ2모달리티 분리 RoPE와 대응 마스크 어텐션의 시계열 연결이 다중 참조 색상화에서 참조 단축(참조 쉬프트)과 신원 간 누출을 줄이는가?
- RQ3단일 참조 및 다중 참조 설정에서 색 신뢰도, 신원 보존 및 시간적 안정성 측면에서 TimeColor의 성능은 어떠한가?
주요 결과
| Method | SSIM ↑ | PSNR ↑ | LPIPS ↓ | FVD ↓ | FID ↓ |
|---|---|---|---|---|---|
| VACE | 0.4810 | 12.85 | 0.4018 | 757.50 | 113.06 |
| LVCD | 0.5469 | 11.18 | 0.3996 | 522.21 | 75.86 |
| AniDoc | 0.7536 | 20.79 | 0.2133 | 256.33 | 65.79 |
| ToonCrafter | 0.7487 | 21.75 | 0.1895 | 268.02 | 45.26 |
| ToonComposer | 0.7046 | 20.09 | 0.2371 | 302.15 | 44.79 |
| LongAnimation | 0.7193 | 20.34 | 0.2461 | 292.54 | 54.41 |
| TimeColor (Ours) | 0.8496 | 24.95 | 0.1309 | 158.58 | 38.88 |
| TimeColor (Prop. Masks) | 0.7585 | 18.95 | 0.2364 | 260.81 | 61.62 |
| VACE | 0.4600 | 12.24 | 0.4238 | 772.32 | 116.73 |
| LVCD | 0.5189 | 10.49 | 0.4436 | 597.94 | 89.18 |
| AniDoc | 0.7189 | 18.97 | 0.2555 | 306.07 | 73.99 |
| ToonCrafter | 0.6957 | 19.47 | 0.2415 | 322.14 | 54.07 |
| ToonComposer | 0.5657 | 15.31 | 0.3611 | 457.37 | 67.68 |
| LongAnimation | 0.6592 | 18.04 | 0.3105 | 359.98 | 66.07 |
| TimeColor (Ours) | 0.8071 | 21.98 | 0.1822 | 204.07 | 49.01 |
| VACE | 0.3369 | 9.76 | 0.5342 | 888.22 | 132.90 |
| LVCD | 0.4846 | 10.58 | 0.5198 | 696.53 | 115.30 |
| AniDoc | 0.5798 | 13.50 | 0.4042 | 505.83 | 109.25 |
| ToonCrafter | 0.5002 | 13.02 | 0.4173 | 500.44 | 99.17 |
| ToonComposer | 0.4294 | 12.00 | 0.5135 | 501.54 | 87.86 |
| LongAnimation | 0.4731 | 12.68 | 0.4841 | 552.10 | 100.64 |
| TimeColor (Ours) | 0.7589 | 18.89 | 0.2361 | 257.41 | 61.78 |
| TimeColor (Prop. Masks) | 0.7585 | 18.95 | 0.2364 | 260.81 | 61.62 |
- TimeColor는 SAKUGA-42M 테스트 세트에서 단일 및 다중 참조 설정 모두에서 색 신뢰도와 시간적 일관성 측면에서 최상의 점수를 달성했다.
- 단일 참조 시작 프레임에서 TimeColor는 SSIM, PSNR, LPIPS, FVD, FID를 기준선 대비 크게 향상시켰다.
- 임의 프레임 및 다중 참조 구간에서도 TimeColor는 경쟁력 있거나 우수한 성능을 보이며 참조 다양성에 대한 강인성을 입증한다.
- 삭제 실험은 모달리티-분리 RoPE와 전체 시공간 대응 마스크 어텐션이 색 누출 방지 및 참조 바인딩 유지에 결정적임을 보여준다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.