Skip to main content
QUICK REVIEW

[论文解读] Learning FRAME Models Using CNN Filters

Yang Lu, Song‐Chun Zhu|arXiv (Cornell University)|Sep 28, 2015
Generative Adversarial Networks and Image Synthesis参考文献 31被引用 26
一句话总结

本文提出一种生成框架,通过使用预训练的CNN滤波器学习FRAME模型,实现对物体和纹理图案的真实感合成。通过将学习过程建模为基于Langevin动力学和EM算法的最大熵匹配,该框架为CNN单元提供了形式化的生成解释,表明每个学习到的FRAME模型对应于更高层的一个新CNN单元,从而实现无监督、无标签的层次特征学习。

ABSTRACT

The convolutional neural network (ConvNet or CNN) has proven to be very successful in many tasks such as those in computer vision. In this conceptual paper, we study the generative perspective of the discriminative CNN. In particular, we propose to learn the generative FRAME (Filters, Random field, And Maximum Entropy) model using the highly expressive filters pre-learned by the CNN at the convolutional layers. We show that the learning algorithm can generate realistic and rich object and texture patterns in natural scenes. We explain that each learned model corresponds to a new CNN unit at a layer above the layer of filters employed by the model. We further show that it is possible to learn a new layer of CNN units using a generative CNN model, which is a product of experts model, and the learning algorithm admits an EM interpretation with binary latent variables.

研究动机与目标

  • 通过从预训练的CNN滤波器学习FRAME模型,为判别性CNN建立形式化的生成视角。
  • 通过生成建模实现CNN中无监督、无标签的层次特征学习。
  • 表明每个学习到的FRAME模型对应于更高层的一个新CNN单元,从而在生成与判别性深度学习之间建立桥梁。
  • 利用二值潜在变量和基于EM的训练方法,构建一个生成式CNN产品-专家模型。
  • 基于Julesz集合理论和最大熵原理对框架进行理论证明,确保与真实图像统计特性的一致性。

提出的方法

  • 该方法利用最大熵原理定义一个生成模型,使其匹配真实图像的滤波器响应统计特性,能量函数由CNN滤波器响应推导得出。
  • 使用带梯度下降的Langevin动力学(类似于模拟退火)从模型中采样,通过基于滤波器响应梯度的迭代优化实现图像生成。
  • 学习算法被解释为一种EM算法,其中E步采用硬决策,用于检测由卷积单元建模的局部模式。
  • 构建一个产品-专家模型,其中每个专家代表一个局部模式,且修正线性单元(ReLU)被证明是混合模型能量函数的自然近似。
  • 该框架采用Julesz集合视角,通过空间或图像集合平均,实现图像部分(用于物体)的重新组合或局部模式(用于纹理)的重新排列,确保统计可交换性。
  • 该方法同时整合了平稳(纹理)和非平稳(物体)FRAME模型,后者对应于特定空间位置的一个CNN节点。

实验结果

研究问题

  • RQ1能否利用预训练的CNN滤波器学习表达性强的生成模型,以模拟自然场景中的图案?
  • RQ2如何将最大熵原理应用于基于CNN的滤波器响应,以生成真实感图像?
  • RQ3学习到的FRAME模型与深层网络中新CNN单元之间存在何种形式对应关系?
  • RQ4学习过程如何被解释为具有二值潜在变量的EM算法?
  • RQ5能否基于Julesz集合理论对生成框架进行理论证明,以确保其与观测图像统计特性的统计一致性?

主要发现

  • 通过匹配真实图像的滤波器响应统计特性,使用CNN滤波器学习到的FRAME模型能够生成真实且多样的物体与纹理图案。
  • 每个学习到的FRAME模型对应于滤波器层上一层的一个新CNN单元,从而有效构建出CNN神经元的生成版本。
  • 学习算法可被解释为具有硬决策E步的EM算法,从而实现对局部模式激活的高效推断。
  • 生成式CNN模型是一个产品-专家模型,其中每个专家建模一个局部模式,而ReLU激活自然地近似于能量函数。
  • Julesz集合理论的理论支持表明,当样本数量或域大小足够大时,模型生成的图像在统计上具有可交换性,并与观测到的图像统计特性保持一致。
  • 该框架为CNN提供了形式化的生成解释,为无监督、无标签的深层网络预训练铺平了道路。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。