[论文解读] Designing Neural Network Architectures using Reinforcement Learning
本文提出 MetaQNN,一种基于 Q-learning 的元建模方法,能够自动从标准层类型设计 CNN 架构,在不需要人类设计的情况下在图像分类基准上具有竞争力或更优的性能。它展示了可转移的顶级模型和集成的自动架构搜索。
At present, designing convolutional neural network (CNN) architectures requires both human expertise and labor. New architectures are handcrafted by careful experimentation or modified from a handful of existing networks. We introduce MetaQNN, a meta-modeling algorithm based on reinforcement learning to automatically generate high-performing CNN architectures for a given learning task. The learning agent is trained to sequentially choose CNN layers using $Q$-learning with an $ε$-greedy exploration strategy and experience replay. The agent explores a large but finite space of possible architectures and iteratively discovers designs with improved performance on the learning task. On image classification benchmarks, the agent-designed networks (consisting of only standard convolution, pooling, and fully-connected layers) beat existing networks designed with the same layer types and are competitive against the state-of-the-art methods that use more complex layer types. We also outperform existing meta-modeling approaches for network design on image classification tasks.
研究动机与目标
- 自动化 CNN 架构设计以降低对人类专业知识和手动试错的依赖。
- 使用强化学习探索大量离散的 CNN 拓扑空间。
- 展示 MetaQNN 发现的架构可以在相同层类型下超越手工设计的网络。
- 显示与使用更复杂的层类型的最先进方法的竞争性能。
- 评估迁移学习潜力和多个 MetaQNN 设计的集成效益。
提出的方法
- 将 CNN 层选择建模为一个马尔可夫决策过程,其中状态编码层参数,动作添加层。
- 使用带 epsilon-greedy 探索策略和经验回放的 Q-learning 来学习构建设计的策略。
- 通过离散化的层参数和 DAG 结构化转移来限制状态-动作空间,确保可处理学习。
- 在探索阶段使用固定、激进的训练方案快速训练拓扑,并为微调对候选进行再训练。
- 使用标准 CNN 组件(conv、pool、FC)在 CIFAR-10、SVHN、MNIST 上评估架构。
- 与手工设计的网络和先前的元建模方法进行比较,包括发现模型的集成。
实验结果
研究问题
- RQ1一个强化学习代理能否可靠地发现使用仅标准层类型就能超越手工设计网络的 CNN 架构?
- RQ2MetaQNN 发现的架构是否能跨数据集迁移并通过集成受益?
- RQ3探索与开发(探索-利用)平衡如何影响发现架构的质量和多样性?
- RQ4MetaQNN 设计与使用更复杂层类型的最先进方法相比如何?
主要发现
- MetaQNN 发现的 CNN 在 CIFAR-10、SVHN 和 MNIST 上击败使用相同层类型设计的现有网络。
- 顶级 MetaQNN 模型具有与使用更复杂层类型和训练过程的最先进方法相当甚至有时超越。
- 一个顶级 MetaQNN 模型的集成在 MNIST 上无需数据增强就获得了更好的结果。
- 最好的 CIFAR-10 模型和顶级模型的集成显示出与相关自动化设计方法的竞争性或更好性能。
- 该代理在 epsilon 下降时展示了改进的模型选择,验证了学习过程。
- 顶级设计对其他数据集具有迁移性,表明适合迁移学习。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。