QUICK REVIEW

[논문 리뷰] Temporally Consistent Video Colorization with Deep Feature Propagation and Self-regularization Learning

Yihao Liu, Hengyuan Zhao|arXiv (Cornell University)|2021. 10. 09.

Generative Adversarial Networks and Image Synthesis인용 수 26

한 줄 요약

논문은 TCVC를 제안합니다. 이미지 기반 색상화 모델의 앵커 프레임에서 양방향 깊은 특징 전파를 사용하여 시간적으로 일관된 비디오 색상화를 달성하고, Ground-Truth 색상 비디오가 필요 없는 자기-정규화 학습 체계의 도움을 받습니다.

ABSTRACT

Video colorization is a challenging and highly ill-posed problem. Although recent years have witnessed remarkable progress in single image colorization, there is relatively less research effort on video colorization and existing methods always suffer from severe flickering artifacts (temporal inconsistency) or unsatisfying colorization performance. We address this problem from a new perspective, by jointly considering colorization and temporal consistency in a unified framework. Specifically, we propose a novel temporally consistent video colorization framework (TCVC). TCVC effectively propagates frame-level deep features in a bidirectional way to enhance the temporal consistency of colorization. Furthermore, TCVC introduces a self-regularization learning (SRL) scheme to minimize the prediction difference obtained with different time steps. SRL does not require any ground-truth color videos for training and can further improve temporal consistency. Experiments demonstrate that our method can not only obtain visually pleasing colorized video, but also achieve clearly better temporal consistency than state-of-the-art methods.

연구 동기 및 목표

시간적으로 안정적이고 고품질의 비디오 색상화가 필요하며 플릭커링을 피해야 한다는 필요성을 제시한다.
이미지 색상화 모델의 앵커 프레임 특징을 활용하고 이를 내부 프레임 색상화로 양방향으로 전파하는 프레임워크를 제안한다.
Ground-truth 색상 비디오 없이 시간적 일관성을 강제하는 자기-정규화 학습을 도입한다.
TCVC가 최신 방법 대비 색상화 품질을 보존하면서 시간적 일관성을 향상시키는 것을 입증한다.

제안 방법

색상화 백본 G를 插(플러그-인)으로 사용하고, 특징 추출 GE와 색 매핑 GC를 활용한다.
앵커 프레임 x1과 xN을 색칠하여 F1f와 FNb 및 해당 색 예측을 얻는다.
광학 흐름 왜곡을 통해 내부 프레임 특징 Fi^b와 Fi^f를 생성하기 위해 양방향 특징 전파를 수행한다.
전진-후방 특징을 프레임별 특징 융합 모듈(FFM)로 융합하는데, 이 모듈은 가중치 네트워크와 정제 네트워크를 포함하여 정제된 Ftilded^f를 색상화에 사용한다.
Ftilded^f에 GC를 적용하여 내부 프레임을 색상화한다.
Ground-truth 색상 비디오를 사용하지 않는 시간 왜곡 손실 L_TW로 자기-정규화 학습을 통해 학습한다.

실험 결과

연구 질문

RQ1앵커 프레임 기반의 깊은 특징 전파가 색상화 백본 재학습 없이도 비디오 시퀀스의 시간적 일관된 색상화를 제공할 수 있는가?
RQ2양방향 특징 전파가 단방향 방법이나 후처리 접근법보다 시간적 일관성을 향상시키는가?
RQ3Ground-truth 색상 비디오가 없이 자기-정규화 학습이 시간적 일관성을 얼마나 효과적으로 강제하는가?
RQ4다양한 앵커 프레임 샘플링에서 색상화 품질과 시간적 안정성 사이의 균형은 어떤가?

주요 결과

TCVC는 최신 방법 대비 색상화 품질을 유지하거나 향상시키면서 시간적 일관성을 개선한다.
학습 가능한 융합 모듈을 갖춘 양방향 특징 전파 스킴은 단방향 전파보다 프레임 간 색상을 더 안정적으로 만든다.
레이블이 필요 없는 학습을 가능하게 하는 자기-정규화 학습은 Ground-Truth 색상 비디오 없이도 강한 시간적 일관성을 달성한다.
여러 앵커 프레임 샘플링(N이 다른)에서의 앙상블은 약간의 PSNR 및 안정성 향상을 제공한다.
정량적 결과는 PSNR과 색채감이 경쟁력 있으며baselines 대비 시간적 불일치(CDC)가 감소한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.