Skip to main content
QUICK REVIEW

[论文解读] Convolution by Evolution: Differentiable Pattern Producing Networks

Chrisantha Fernando, Dylan Banarse|arXiv (Cornell University)|Jun 8, 2016
Generative Adversarial Networks and Image Synthesis参考文献 30被引用 24
一句话总结

该论文提出了一种可微分模式生成网络(DPPNs),这是一种混合框架,通过梯度下降法在学习权重的同时演化网络拓扑结构。DPPNs 将一个含 157,684 个参数的去噪自编码器压缩至仅 187 个参数,重新发现了卷积结构,并在 Omniglot 数据集上的泛化性能优于直接编码的网络。

ABSTRACT

In this work we introduce a differentiable version of the Compositional Pattern Producing Network, called the DPPN. Unlike a standard CPPN, the topology of a DPPN is evolved but the weights are learned. A Lamarckian algorithm, that combines evolution and learning, produces DPPNs to reconstruct an image. Our main result is that DPPNs can be evolved/trained to compress the weights of a denoising autoencoder from 157684 to roughly 200 parameters, while achieving a reconstruction accuracy comparable to a fully connected network with more than two orders of magnitude more parameters. The regularization ability of the DPPN allows it to rediscover (approximate) convolutional network architectures embedded within a fully connected architecture. Such convolutional architectures are the current state of the art for many computer vision applications, so it is satisfying that DPPNs are capable of discovering this structure rather than having to build it in by design. DPPNs exhibit better generalization when tested on the Omniglot dataset after being trained on MNIST, than directly encoded fully connected autoencoders. DPPNs are therefore a new framework for integrating learning and evolution.

研究动机与目标

  • 将进化拓扑搜索与基于梯度的权重学习相结合,实现高效的神经网络压缩。
  • 通过支持权重学习,提升数据效率和泛化能力,超越标准 CPPNs 的表现。
  • 在无架构先验的前提下,发现如卷积架构等归纳偏置。
  • 评估 DPPNs 是否能在泛化能力和参数效率方面超越直接编码的网络。
  • 探索拉马克式进化在结合学习与进化进行神经架构搜索方面的有效性。

提出的方法

  • DPPNs 使用拉马克式进化算法,其中学习到的权重在代际间遗传,从而实现快速收敛。
  • 网络拓扑通过 NEAT 方法演化,而权重则通过反向传播和梯度下降进行优化。
  • 采用类似 CPPN 的架构,将坐标输入(x, y, 距离, 偏置)映射为输出像素值或权重矩阵,使用周期性函数和高斯函数等激活函数。
  • DPPN 通过生成低维基因型来编码去噪自编码器的权重,该基因型通过模式生成过程重构出完整的权重矩阵。
  • 对拓扑结构和初始权重应用交叉与突变操作,通过在 MNIST 上的重建损失评估适应度。
  • 该框架支持 HyperNEAT 风格的大规模网络间接编码,以及自编码器权重的直接重构。

实验结果

研究问题

  • RQ1一种可微分的、基于进化的方案是否能在保持性能的前提下压缩大型神经网络?
  • RQ2将基于梯度的学习与进化拓扑搜索相结合,是否能带来比标准 CPPNs 更优的泛化性能?
  • RQ3DPPNs 是否能在全连接网络中完全自动地重新发现如卷积架构等已知归纳偏置?
  • RQ4与达尔文式和巴尔德温式变体相比,拉马克式学习方案在收敛速度和性能方面表现如何?
  • RQ5在 MNIST 上训练后,DPPNs 在分布外数据集(如 Omniglot)上的泛化能力有多强?

主要发现

  • 仅含 187 个参数的 DPPN 在 MNIST 测试集上实现了 0.09 的二元交叉熵(BCE),成功压缩了一个含 157,684 个参数的自编码器。
  • DPPN 重新发现了类似卷积的权重模式,包括类似视网膜神经节细胞的中心兴奋/周围抑制感受野。
  • 经过 1,000 场锦标赛训练后,DPPN 的测试集均方误差(MSE)降至 0.01,其中交叉操作显著提升了重建质量(MSE 0.003 vs. 0.03 无交叉时)。
  • 在 Omniglot 数据集上的泛化性能达到 BCE 0.121,优于参数数量相同的直接编码网络。
  • DPPN 编码的网络 BCE 为 0.096,显著低于直接编码的 100 节点网络(>0.24),证明了其在参数效率方面的优越性。
  • 尽管没有卷积结构的架构先验,DPPN 在全连接自编码器的解码层中成功发现了 28×28 的卷积结构。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。