[论文解读] Temporally Consistent Video Colorization with Deep Feature Propagation and Self-regularization Learning
该论文提出 TCVC,一种框架,利用图像着色模型的锚帧的双向深度特征传播,实现时间一致的视频着色,辅以无需真实色彩视频的自正则化学习方案。
Video colorization is a challenging and highly ill-posed problem. Although recent years have witnessed remarkable progress in single image colorization, there is relatively less research effort on video colorization and existing methods always suffer from severe flickering artifacts (temporal inconsistency) or unsatisfying colorization performance. We address this problem from a new perspective, by jointly considering colorization and temporal consistency in a unified framework. Specifically, we propose a novel temporally consistent video colorization framework (TCVC). TCVC effectively propagates frame-level deep features in a bidirectional way to enhance the temporal consistency of colorization. Furthermore, TCVC introduces a self-regularization learning (SRL) scheme to minimize the prediction difference obtained with different time steps. SRL does not require any ground-truth color videos for training and can further improve temporal consistency. Experiments demonstrate that our method can not only obtain visually pleasing colorized video, but also achieve clearly better temporal consistency than state-of-the-art methods.
研究动机与目标
- 推动需要时间上稳定、高清晰度的视频着色,避免闪烁。
- 提出一个框架,利用图像着色模型的锚帧特征并双向传播以对内部帧进行着色。
- 引入自正则化学习,在没有 ground-truth 彩色视频的情况下强制时间一致性。
- 证明 TCVC 在保持/提升着色质量的同时,相较于最先进方法提升时间一致性。
提出的方法
- 将基于图像的着色骨干 G、特征提取 GE 和颜色映射 GC 作为插件使用。
- 对锚框架 x1 和 xN 着色以获得 F1f 与 FNb 及相应的颜色预测。
- 通过光流扭曲执行双向特征传播,生成内部帧的 Fi^b 与 Fi^f。
- 使用帧特定特征融合模块 (FFM) 将前向与后向特征融合,其中包含一个加权网络和一个细化网络,以生成用于上色的 refined Ftilded^f。
- 用 GC 应用于Ftilded^f 对内部帧进行着色。
- 以自正则化训练,使用时间扭曲损失 L_TW,在不使用 ground-truth 彩色视频的情况下惩罚时间上的颜色不一致。
实验结果
研究问题
- RQ1锚帧基于深度特征传播是否能在不重新训练着色骨干的前提下为视频序列提供时间上一致的着色?
- RQ2双向特征传播是否比单向传播或后处理方法在时间一致性方面有提升?
- RQ3在没有 ground-truth 彩色视频的情况下,自正则化学习在强时间一致性方面有多大效果?
- RQ4在改变锚帧采样时,着色质量与时间稳定性之间的权衡是什么?
主要发现
- 与现有最先进方法相比,TCVC 在保持或提升着色质量的同时改善了时间一致性。
- 带有可学习融合模块的双向特征传播方案在跨帧颜色稳定性方面优于单向传播。
- 自正则化学习实现无标签训练,在没有地面真彩色视频的情况下获得强时间一致性。
- 对多种锚帧采样(N)进行集成在 PSNR 和稳定性方面提供边际收益。
- 定量结果显示在与基线相比的 PSNR 和颜色丰富度方面具有竞争力,同时降低了时间不一致性(CDC)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。