[论文解读] Photorealistic Style Transfer via Wavelet Transforms
本文介绍了 WCT 2,一种小波修正的端到端的照片真实感风格转换模型,在保持内容结构的同时,能够在单次传递内实现渐进式风格化,并且在高分辨率下运行,无需后处理。
Recent style transfer models have provided promising artistic results. However, given a photograph as a reference style, existing methods are limited by spatial distortions or unrealistic artifacts, which should not happen in real photographs. We introduce a theoretically sound correction to the network architecture that remarkably enhances photorealism and faithfully transfers the style. The key ingredient of our method is wavelet transforms that naturally fits in deep networks. We propose a wavelet corrected transfer based on whitening and coloring transforms (WCT$^2$) that allows features to preserve their structural information and statistical properties of VGG feature space during stylization. This is the first and the only end-to-end model that can stylize a $1024 imes1024$ resolution image in 4.7 seconds, giving a pleasing and photorealistic quality without any post-processing. Last but not least, our model provides a stable video stylization without temporal constraints. Our code, generated images, and pre-trained models are all available at https://github.com/ClovaAI/WCT2.
研究动机与目标
- 推动实现保存细粒内容细节的照片真实感风格转换,同时应用参考风格。
- 用 Haar 小波池化替代基于 VGG 的编码器/解码器中的有损池化/解池化,以实现精确重建。
- 提出在单次前向传递中进行渐进式风格化,以提高效率并减少伪影。
- 展示高分辨率 (1024×1024) 的风格化,运行时间最小且无后处理步骤。
- 展示视频风格化的时序稳定性,无需时序正则化。
提出的方法
- 用 Haar 小波池化/解池化替代 VGG 编码器/解码器中的最大池化/解池化,以实现信号的精确重建。
- 在 VGG 特征空间中使用白化和着色变换(WCT)进行风格迁移,采用渐进单-pass 策略。
- 在一个前向传递中按编码器层级(conv1_X 到 conv4_X)逐步进行风格化,避免多层解码器。
- 可选地通过多层风格化增强来提高风格强度,同时监控伪影。
- 训练单对编码器-解码器;利用语义映射引导区域级风格转换;实现基于端到端流水线的 WCT 2。
- 以框架理论为依据,证明使用紧小波基实现完美重建和能量压缩,从而实现稳定的风格化。
实验结果
研究问题
- RQ1波浪基 pooling/unpooling 能否实现精确重建,从而在照片真实感风格转换中保留内容结构?
- RQ2渐进式、单次传递的风格化是否比多层方法在真实感和稳定性方面相同或更好?
- RQ3在无后处理的情况下,高分辨率风格化的量化和质性提升有哪些?
- RQ4在视频风格化中,WCT 2 相对于时序约束缺失的情况下在时间稳定性方面的表现如何?
主要发现
| 图像大小 | DPST | (WCT + 后处理) | 本方法 |
|---|---|---|---|
| 256×256 | 306.9 | 3.2+9.2 | 3.2 |
| 512×512 | 1020.7 | 3.6+40.2 | 3.8 |
| 896×896 | 2988.6 | 3.8+OOM | 4.4 |
| 1024×1024 | 3887.8 | 3.9+OOM | 4.7 |
- WCT 2 在无需后处理的情况下实现了照片真实感风格化,不同于以往方法。
- 在 1024×1024 下,WCT 2 的运行时间为 4.7 秒,显著快于 DPST 与 PhotoWCT(全集),且内存使用更低。
- WCT 2 相比基线,获得更高的 SSIM 和更低的 Gram-style 损失,表明更好的照片真实感和风格保真度。
- 在一个传递内进行渐进式风格化,减少误差放大,并实现单个编码器-解码器,提高效率。
- 小波池化保留内容细节和边缘,在将 LL 与高频成分转换时实现选择性风格化。
- 使用 WCT 2 的视频风格化在没有光流约束的情况下展示了时序稳定性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。