QUICK REVIEW

[論文レビュー] Temporally Consistent Video Colorization with Deep Feature Propagation and Self-regularization Learning

Yihao Liu, Hengyuan Zhao|arXiv (Cornell University)|Oct 9, 2021

Generative Adversarial Networks and Image Synthesis被引用数 26

ひとこと要約

本論文は TCVC を提案する。画像ベースのカラー化モデルのアンカー帧から双方向の深部特徴伝搬を用いて、 ground-truth カラー動画を必要とせず自己正則化学習スキームを補助として、時間的に一貫した動画カラー化を実現する。

ABSTRACT

Video colorization is a challenging and highly ill-posed problem. Although recent years have witnessed remarkable progress in single image colorization, there is relatively less research effort on video colorization and existing methods always suffer from severe flickering artifacts (temporal inconsistency) or unsatisfying colorization performance. We address this problem from a new perspective, by jointly considering colorization and temporal consistency in a unified framework. Specifically, we propose a novel temporally consistent video colorization framework (TCVC). TCVC effectively propagates frame-level deep features in a bidirectional way to enhance the temporal consistency of colorization. Furthermore, TCVC introduces a self-regularization learning (SRL) scheme to minimize the prediction difference obtained with different time steps. SRL does not require any ground-truth color videos for training and can further improve temporal consistency. Experiments demonstrate that our method can not only obtain visually pleasing colorized video, but also achieve clearly better temporal consistency than state-of-the-art methods.

研究の動機と目的

時間的に安定した高品質な動画カラー化が必要で、フリッカーを回避する動機づけ。
アンカー帧の特徴を画像カラー化モデルから取り出し、内部フレームをカラー化するために特徴を双方向に伝搬するフレームワークを提案。
ground-truth カラー動画を用いず時間的一貫性を強制する自己正則化学習を導入。
TCVC がカラー化品質を保持しつつ、最先端手法より時間的一貫性を向上させることを示す。

提案手法

画像ベースのカラー化バックボーン G をプラグインとして用い、特徴抽出 GE とカラー写像 GC を使用。
アンカーフレーム x1 と xN をカラー化して F1f と FNb および対応するカラー予測を得る。
光学-flow 変換による内部フレーム特徴 Fi^b および Fi^f を生成するために双方向の特徴伝搬を実行。
前方と後方の特徴を、重み付けネットワークとリファインネットワークを含むフレーム特異的特徴融合モジュール（FFM）で融合し、カラー化のために Ftilded^f を得る。
Ftilded^f に GC を適用して内部フレームをカラー化。
Ground-truth カラー動画を使用せず、時間的なワーピング損失 L_TW を用いた自己正則化学習で訓練。

実験結果

リサーチクエスチョン

RQ1アンカーフレームベースの深部特徴伝搬は、カラー化バックボーンを再訓練せずに動画列の時間的一貫性を提供できるか。
RQ2双方向の特徴伝搬は、前方のみの方法や後処理アプローチより時間的一貫性を改善するか。
RQ3Ground-truth カラー動画がなくても自己正則化学習は時間的一貫性をどれだけ効果的に強制できるか。
RQ4アンカーフレーム採取を変えた場合のカラー化品質と時間安定性のトレードオフはどうなるか。

主な発見

TCVC は最先端手法と比較して、カラー化品質を維持または向上させつつ時間的一貫性を改善。
学習可能な融合モジュールを含む双方向の特徴伝搬方式は、単方向伝搬よりもフレーム間の色の安定性を向上。
自己正則化学習はラベルなし訓練を可能にし、ground-truth カラー動画なしでも強い時間的一貫性を達成。
複数のアンカーフレームサンプリング（異なる N）を組み合わせると、PSNR と安定性にわずかな改善が得られる。
定量的結果は、PSNR とカラー度が競合的でありつつ、ベースラインと比較して時間的非一貫性（CDC）が低下していることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。