[论文解读] Deep Video Color Propagation
本文提出了一种深度学习框架,用于视频色彩传播,通过结合局部逐帧扭曲与全局语义特征匹配,以在长时间序列中保持色彩准确性。通过在细化网络中融合基于局部运动的策略与基于全局语义匹配的策略,该方法在色彩传播任务中实现了最先进性能,在定性和定量评估中均显著优于现有的视频与图像色彩化方法,以及神经风格迁移方法。
Traditional approaches for color propagation in videos rely on some form of matching between consecutive video frames. Using appearance descriptors, colors are then propagated both spatially and temporally. These methods, however, are computationally expensive and do not take advantage of semantic information of the scene. In this work we propose a deep learning framework for color propagation that combines a local strategy, to propagate colors frame-by-frame ensuring temporal stability, and a global strategy, using semantics for color propagation within a longer range. Our evaluation shows the superiority of our strategy over existing video and image color propagation methods as well as neural photo-realistic style transfer approaches.
研究动机与目标
- 解决依赖光流的传统视频色彩传播方法在长时间序列中因漂移和伪影导致的局限性。
- 通过深度特征匹配实现语义理解,提升长距离一致性,从而改善视频中的色彩传播。
- 开发一种两阶段训练框架,有效结合基于局部运动的扭曲与全局语义色彩迁移。
- 在时间稳定性与色彩准确性方面,超越现有的图像与视频色彩化方法,包括神经风格迁移方法。
提出的方法
- 通过光流实现逐帧的局部策略,以确保时间一致性并减少漂移。
- 通过深度语义特征实现全局策略,将第一帧的颜色匹配并传输到更长的时间范围。
- 通过融合与细化网络结合局部与全局策略的输出,生成最终的着色帧。
- 采用两阶段训练流程,以有效优化局部与全局组件。
- 利用深度网络的预训练特征,实现语义感知的色彩匹配。
- 在视频序列上端到端训练该框架,损失函数针对感知质量和基于PSNR的质量进行优化。
实验结果
研究问题
- RQ1结合局部运动扭曲与全局语义匹配的混合深度学习方法,能否提升视频中长期的色彩传播效果?
- RQ2语义特征的整合相较于基于光流或双边滤波的方法,如何增强色彩一致性?
- RQ3在时间稳定性方面,所提方法相较于最先进图像与视频色彩化技术,优势程度如何?
- RQ4在长时间序列中,该方法与神经照片级风格迁移相比,在保留源帧色彩方面表现如何?
主要发现
- 与竞争方法相比,该方法在第50帧的PSNR误差显著更低(41.23),证明了其优越的时间稳定性。
- 该方法在50帧内保持了高色彩保真度,在平均误差与长期误差指标上均优于视频传播网络[21]和快速双边求解器[5]。
- 全局策略有效减少了色彩漂移与伪影,尤其在大运动或遮挡区域,此时局部扭曲方法失效。
- 在69个多样化视频序列上的定量评估证实,该方法在所有帧上均保持一致的优越性,误差增长速度慢于基线方法。
- 该方法在不到一分钟内即可达到与最先进方法相当或更优的结果,而[49]等方法处理30帧高清视频则需数小时。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。