QUICK REVIEW

[论文解读] Coherent Online Video Style Transfer

Dongdong Chen, Jing Liao|arXiv (Cornell University)|Mar 27, 2017

Generative Adversarial Networks and Image Synthesis参考文献 33被引用 39

一句话总结

该论文提出了首个端到端、前馈式的在线视频风格迁移神经网络，通过整合短期运动光流和遮挡感知特征融合，确保了时间一致性。通过利用预训练的图像风格迁移网络并跨帧传播特征，该方法实现了接近实时的性能（15 fps），结果无闪烁，优于逐帧基线方法，在时间一致性方面与基于优化的方法相当，但速度提升了1,000倍。

ABSTRACT

Training a feed-forward network for fast neural style transfer of images is proven to be successful. However, the naive extension to process video frame by frame is prone to producing flickering results. We propose the first end-to-end network for online video style transfer, which generates temporally coherent stylized video sequences in near real-time. Two key ideas include an efficient network by incorporating short-term coherence, and propagating short-term coherence to long-term, which ensures the consistency over larger period of time. Our network can incorporate different image stylization networks. We show that the proposed method clearly outperforms the per-frame baseline both qualitatively and quantitatively. Moreover, it can achieve visually comparable coherence to optimization-based video style transfer, but is three orders of magnitudes faster in runtime.

研究动机与目标

解决逐帧神经视频风格迁移中的闪烁和时间不一致问题。
通过前馈网络实现实时、稳定的视频序列风格迁移。
通过跨帧传播短期一致性，实现长期时间一致性。
设计一种与现有图像风格迁移网络兼容且无需微调即可泛化到新风格的方法。
与基于优化的视频风格迁移相比，将运行时间降低多个数量级，同时保持视觉质量。

提出的方法

集成光流子网络以估计连续帧之间的密集特征对应关系，在特征空间中对齐运动轨迹。
引入掩码子网络以检测遮挡和运动不连续性，实现对当前帧与前一帧特征的自适应融合。
将两个子网络嵌入到预训练图像风格迁移网络的中间层（r1/4）中，以平衡内容表征与鲁棒性。
使用联合损失函数联合训练整个架构，结合风格迁移与时间一致性目标。
通过运动轨迹将前一帧的特征传播到后续帧，将短期一致性扩展为长期一致性。
采用微调后的FlowNet作为光流子网络，相比固定权重初始化，显著提升了运动对齐效果。

实验结果

研究问题

RQ1通过建模时间一致性，前馈网络能否实现稳定、无闪烁的视频风格迁移？
RQ2如何有效传播短期一致性，以实现在视频风格迁移中的长期一致性？
RQ3所提出的子网络能否在不重新训练的情况下泛化到新风格？
RQ4该方法在视觉和定量一致性方面，相较于逐帧风格迁移的改进程度如何？
RQ5与基于优化的视频风格迁移相比，该方法在速度和质量上的表现如何？

主要发现

该方法在现代GPU上实现了15 fps的推理速度，相比基于优化的视频风格迁移方法提速1,000倍。
稳定性误差（e_stab）降低至0.0038（使用r1(D)层组合），显著优于基线方法（e_stab = 0.0199）。
即使在相机运动和物体运动下，该方法仍能生成视觉一致的结果，闪烁和伪影（如鬼影）极少。
当使用多种风格（如[9]）进行训练时，光流和掩码子网络无需重新训练即可泛化到新风格，同时保持稳定性。
该方法在定性和定量上均优于逐帧基线方法，PSI分数在最优设置下从0.4851提升至0.4086。
微调光流子网络相比使用固定预训练版本，显著提升了时间一致性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。