[论文解读] Finding Competitive Network Architectures Within a Day Using UCT
本文提出了一种结合两种新型基于UCT的算法的蒙特卡洛树搜索方法,用于自动化神经网络架构搜索,在单张GPU一天内于MNIST、SVHN和CIFAR-10数据集上取得了具有竞争力的性能。通过在相似架构间共享信息并利用Net2Net知识迁移,该方法在严格的时间约束下优于以往的自动化与人工设计的架构。
The design of neural network architectures for a new data set is a laborious task which requires human deep learning expertise. In order to make deep learning available for a broader audience, automated methods for finding a neural network architecture are vital. Recently proposed methods can already achieve human expert level performances. However, these methods have run times of months or even years of GPU computing time, ignoring hardware constraints as faced by many researchers and companies. We propose the use of Monte Carlo planning in combination with two different UCT (upper confidence bound applied to trees) derivations to search for network architectures. We adapt the UCT algorithm to the needs of network architecture search by proposing two ways of sharing information between different branches of the search tree. In an empirical study we are able to demonstrate that this method is able to find competitive networks for MNIST, SVHN and CIFAR-10 in just a single GPU day. Extending the search time to five GPU days, we are able to outperform human architectures and our competitors which consider the same types of layers.
研究动机与目标
- 实现适用于计算资源有限的研究人员的自动化、高效神经架构搜索。
- 将发现具有竞争力的网络架构所需的时间从数月缩短至一天以内。
- 开发一种可扩展且高效的搜索方法,其性能可匹配或超越人工设计的网络架构。
- 解决现有强化学习与神经演化方法在实际场景中计算不可行的问题。
提出的方法
- 将架构搜索建模为马尔可夫决策过程,其中状态表示部分架构,动作表示添加层。
- 提出两种UCT变体:一种在相似状态中对相似动作共享信息,另一种基于先前动作序列预测最终奖励。
- 使用蒙特卡洛规划通过树搜索实现期望奖励最大化,同时平衡探索与利用。
- 应用Net2Net知识迁移技术,通过从父网络初始化来加速子网络的训练。
- 搜索空间包含19种操作:不同卷积核大小与滤波器数量的卷积层、池化层和全连接层。
- 设定单张GPU一天的时间预算,并调整超参数以在该约束下最大化性能。
实验结果
研究问题
- RQ1基于UCT的蒙特卡洛规划方法是否能在单张GPU一天内发现具有竞争力的神经网络架构?
- RQ2在相似架构之间共享信息如何提升搜索效率与性能?
- RQ3在严格的时间与硬件约束下,该方法是否能超越现有的自动化与人工设计的架构?
- RQ4将搜索预算增加至五天对性能与架构多样性有何影响?
主要发现
- 该方法在单张GPU一天内于CIFAR-10上实现了91.2%的测试准确率,优于相同时间预算下的所有竞争方法。
- 在五天的搜索预算下,该方法发现的网络实现了93.55%的测试准确率,超越了人工设计与自动化基线方法。
- 该方法找到的前五名架构平均测试准确率为90.80%,标准差仅为1.10%,表明性能高度一致。
- 相比之下,MetaQNN耗时超过100天才达到93.08%的准确率,即使在50张GPU天后,仅评估了27个网络,且大多数为随机采样。
- 神经架构搜索与大规模演化方法分别需要超过800次模型评估与数月计算时间才能超越随机搜索。
- 观察到该方法收敛至深度为7的架构,因此引入架构约束以偏好更深网络,从而进一步提升性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。