Skip to main content
QUICK REVIEW

[论文解读] A Powerful Generative Model Using Random Weights for the Deep Image Representation

Kun He, Yan Wang|arXiv (Cornell University)|Jun 15, 2016
Generative Adversarial Networks and Image Synthesis参考文献 18被引用 49
一句话总结

本文展示了未经训练、随机初始化的深度卷积神经网络(ranVGG)能够实现高质量的图像重建、纹理合成与神经风格迁移,其效果可与完全训练的网络相媲美甚至超越。该方法依赖于深度网络的结构非线性特性,而非学习到的权重,表明仅凭网络结构本身即可实现强大的生成建模,适用于深度可视化任务。

ABSTRACT

To what extent is the success of deep visualization due to the training? Could we do deep visualization using untrained, random weight networks? To address this issue, we explore new and powerful generative models for three popular deep visualization tasks using untrained, random weight convolutional neural networks. First we invert representations in feature spaces and reconstruct images from white noise inputs. The reconstruction quality is statistically higher than that of the same method applied on well trained networks with the same architecture. Next we synthesize textures using scaled correlations of representations in multiple layers and our results are almost indistinguishable with the original natural texture and the synthesized textures based on the trained network. Third, by recasting the content of an image in the style of various artworks, we create artistic images with high perceptual quality, highly competitive to the prior work of Gatys et al. on pretrained networks. To our knowledge this is the first demonstration of image representations using untrained deep neural networks. Our work provides a new and fascinating tool to study the representation of deep network architecture and sheds light on new understandings on deep visualization.

研究动机与目标

  • 探究是否可以使用未经训练、随机初始化的深度神经网络而非完全训练的网络来执行深度可视化任务。
  • 在深度表征学习中,将网络架构的贡献与模型训练的贡献分离开来。
  • 开发一种仅基于深度卷积网络结构特性的生成建模框架。
  • 评估随机权重网络是否能生成与预训练模型相当的、具有感知真实感的图像。
  • 提供一种无需训练计算成本的新工具,用于在训练前分析深度网络架构。

提出的方法

  • 作者使用一个随机初始化的VGG型网络(ranVGG),其卷积滤波器固定为随机值,推理过程中不进行任何学习。
  • 在图像重建任务中,通过在特征图上使用L2损失,对白噪声输入进行优化,使其匹配真实图像的特征激活。
  • 在纹理合成任务中,通过最小化生成图像与真实纹理在多个层级上的特征图相关性(Gram矩阵)差异来实现。
  • 在风格迁移任务中,结合内容损失(中间层的激活)与风格损失(多个层级上的Gram矩阵),将艺术风格迁移到内容图像上。
  • 基于各层级的统计特性自适应地调整损失权重,从而提升感知质量,且无需手动调参。
  • 所有优化均通过在输入图像上进行梯度下降完成,而非对网络权重进行优化,从而保持随机初始化的特性。

实验结果

研究问题

  • RQ1未经训练、随机初始化的深度网络是否能为重建、纹理合成与风格迁移生成高质量图像?
  • RQ2深度可视化成功的原因在多大程度上源于网络架构,而非模型训练?
  • RQ3深度网络的分层非线性特性是否足以在无需任何基于反向传播的训练情况下,生成具有感知真实感的可视化结果?
  • RQ4在标准深度可视化基准上,随机权重网络的性能与完全训练网络相比如何?
  • RQ5随机权重网络能否作为评估网络架构前的轻量化、快速替代方案使用?

主要发现

  • 使用随机权重网络进行图像重建,其统计重建质量高于在相同架构下应用完全训练网络的相同方法。
  • 使用ranVGG进行纹理合成的结果,与原始纹理以及完全训练的VGG网络生成的结果几乎无法区分。
  • ranVGG在风格迁移任务中的结果在感知上与Gatys等人基于预训练VGG模型的结果相当,能够生成高质量的艺术图像,涵盖梵高、莫奈等多种风格。
  • 增加深层(如conv4_1)后,纹理合成质量略有提升,表明即使无训练,分层表征学习也有效。
  • 该方法在无需任何微调或对抗训练的情况下实现了高感知质量,仅依赖于网络深度与基于梯度的优化。
  • 结果表明,深度网络的内在非线性与分层结构本身已足以实现强大的生成建模,而无需依赖学习到的权重。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。