[论文解读] Learning Linear Transformations for Fast Arbitrary Style Transfer
论文通过轻量级CNN学习一个线性变换矩阵T,以实现快速的任意风格迁移,建模二阶统计并保持内容亲和性,适用于艺术风格、照片级真实感、视频和域自适应等任务。
Given a random pair of images, an arbitrary style transfer method extracts the feel from the reference image to synthesize an output based on the look of the other content image. Recent arbitrary style transfer methods transfer second order statistics from reference image onto content image via a multiplication between content image features and a transformation matrix, which is computed from features with a pre-determined algorithm. These algorithms either require computationally expensive operations, or fail to model the feature covariance and produce artifacts in synthesized images. Generalized from these methods, in this work, we derive the form of transformation matrix theoretically and present an arbitrary style transfer approach that learns the transformation matrix with a feed-forward network. Our algorithm is highly efficient yet allows a flexible combination of multi-level styles while preserving content affinity during style transfer process. We demonstrate the effectiveness of our approach on four tasks: artistic style transfer, video and photo-realistic style transfer as well as domain adaptation, including comparisons with the state-of-the-art methods.
研究动机与目标
- 激励任意风格迁移并降低二阶统计变换的计算成本。
- 推导连接内容统计和风格统计的变换矩阵的理论形式。
- 提出一种基于学习的高效方法,使用小型CNN来预测T。
- 展示在艺术风格、视频、照片级真实感风格迁移以及领域自适应中的适用性。
提出的方法
- 将风格迁移表述为学习一个线性变换T,使内容与风格特征的协方差对齐。
- 使用两台小型CNN,它们对内容/风格特征的协方差矩阵进行处理,输出中间矩阵以构成T。
- 对T的计算进行分解以避免昂贵的矩阵分解;使用压缩特征通路(卷积层)和最后的全连接层。
- 用一个由内容损失和通过固定的VGG-19损失网络计算的多层次风格损失组成的损失来训练。
- 通过在单个T中对relu1_1、relu2_1、relu3_1、relu4_1处施加损失,允许组合多层风格级别。
实验结果
研究问题
- RQ1学习得到的线性变换矩阵T是否能够捕获任意风格迁移所需的二阶统计?
- RQ2相比于联合输入网络,使用两台CNN(一个用于内容,一个用于风格)的设计是否能够产生稳定且高效的T?
- RQ3用多层次风格损失引导T如何影响艺术、视频、照片级真实感风格迁移以及领域自适应等任务的质量与灵活性?
主要发现
| 图片尺寸 | Ulyanov 等人 2017 | Gatys 等人 2016 | Huang 等人 2017 | Li 等人 2017 | Our (relu3_1) | Our (relu4_1) |
|---|---|---|---|---|---|---|
| 256 | 0.013 | 16.51 | 0.019 | 0.922 | 0.007 | 0.010 |
| 512 | 0.028 | 59.45 | 0.071 | 1.080 | 0.025 | 0.036 |
| 1024 | 0.092 | N/A | N/A | N/A | 0.100 | 0.146 |
- 该方法为任意风格迁移提供一个快速的端到端前馈流水线(约140 fps)。
- 通过使用不同的风格损失配置,单个学习得到的T即可表达多级风格,无需级联多个编码器。
- 将协方差为基础的输入提供给变换模块,相比使用原始图像或特征可提升泛化能力。
- 该方法保持了内容亲和性,能实现稳定的视频风格化和无失真的照片级真实感风格化。
- 应用包括艺术风格迁移、视频风格迁移、照片真实感风格迁移以及领域自适应(如从游戏到现实)的竞争性结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。