[论文解读] A Genetic Programming Approach to Designing Convolutional Neural Network Architectures
本论文使用笛卡尔遗传程序设计(Cartesian genetic programming)结合高度功能化的 CNN 模块,自动设计适用于 CIFAR-10 的 CNN 架构,在没有人类设计架构的情况下实现具竞争力的结果。
The convolutional neural network (CNN), which is one of the deep learning models, has seen much success in a variety of computer vision tasks. However, designing CNN architectures still requires expert knowledge and a lot of trial and error. In this paper, we attempt to automatically construct CNN architectures for an image classification task based on Cartesian genetic programming (CGP). In our method, we adopt highly functional modules, such as convolutional blocks and tensor concatenation, as the node functions in CGP. The CNN structure and connectivity represented by the CGP encoding method are optimized to maximize the validation accuracy. To evaluate the proposed method, we constructed a CNN architecture for the image classification task with the CIFAR-10 dataset. The experimental result shows that the proposed method can be used to automatically find the competitive CNN architecture compared with state-of-the-art models.
研究动机与目标
- 推动自动化的 CNN 架构设计,以减少对专家手工设计模型的依赖。
- 引入基于 CGP 的编码来表示 CNN 架构及连接。
- 在 CIFAR-10 上评估 CGP-CNN 并与最先进模型进行对比。
- 研究 ConvSet 与 ResSet 节点函数集对性能和架构形状的影响。
提出的方法
- 将 CNN 架构表示为具有固定节点网格的笛卡尔遗传程序。
- 使用六种节点函数:ConvBlock、ResBlock、最大池化、平均池化、拼接和求和。
- 训练每个候选架构,并将其验证准确度作为适应度。
- 使用一种带强制与中性变异的改进 (1+2) 进化策略以迭代地改进架构。
- 比较两种函数集(ConvSet 和 ResSet)以探索架构风格。
- 使用完整训练数据对最佳发现的架构进行重新训练,以报告最终测试准确性。
实验结果
研究问题
- RQ1具高度功能性模块的 CGP 能否自动发现适用于 CIFAR-10 的具竞争力的 CNN 架构?
- RQ2基于 ConvBlock 与基于 ResBlock 的函数集如何影响搜索过程及所得到的架构?
- RQ3CGP 设计的 CNN 在模型大小(参数量)与准确度之间的权衡是什么?
- RQ4在 CIFAR-10 上,CGP-CNN 与手工设计和基于强化学习的架构搜索方法相比如何?
主要发现
- 在默认情景下,使用 ResSet 的 CGP-CNN 达到被比较模型中最低的错误率(5.98% 误差,1.68×10^6 参数)。
- 使用 ConvSet 的 CGP-CNN 在 1.52×10^6 参数下达到 6.75% 的错误率,表现具竞争力且架构风格不同。
- 在小数据情景下,CGP-CNN(ConvSet)和 CGP-CNN(ResSet)均超越 VGG 与 ResNet,错误率分别为 23.48% 和 23.47%,且参数量相对较小。
- 最佳的 CGP-CNN 架构类似于 ResNet 风格,包括捷径连接和下采样替代方案,表明该方法能够发现与人类水平相当的设计。
- 与基于 RL 的 NAS 方法相比,CGP-CNN 在精确度上具竞争力且所需计算资源显著较少(没有数百个 GPU)。
- 研究表明,使用 CGP 进行的架构搜索可以产生有效的 CNN,并且架构风格受到所选函数集的影响。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。