[论文解读] XNAS: Neural Architecture Search with Expert Advice
XNAS 提出了一种受预测专家建议(PEA)理论启发的新型可微神经架构搜索(NAS)方法,采用基于指数梯度(Exponentiated-Gradient)的优化器,结合动态剪枝与自适应学习率,以最小化架构选择中的遗憾。该方法实现了最先进性能,在移动设置下于 CIFAR-10 上达到 1.60% 的错误率,在 ImageNet 上达到 24% 的 top-1 错误率,其网络单元架构比以往方法更深、更复杂。
This paper introduces a novel optimization method for differential neural architecture search, based on the theory of prediction with expert advice. Its optimization criterion is well fitted for an architecture-selection, i.e., it minimizes the regret incurred by a sub-optimal selection of operations. Unlike previous search relaxations, that require hard pruning of architectures, our method is designed to dynamically wipe out inferior architectures and enhance superior ones. It achieves an optimal worst-case regret bound and suggests the use of multiple learning-rates, based on the amount of information carried by the backward gradients. Experiments show that our algorithm achieves a strong performance over several image classification datasets. Specifically, it obtains an error rate of 1.6% for CIFAR-10, 24% for ImageNet under mobile settings, and achieves state-of-the-art results on three additional datasets.
研究动机与目标
- 为解决现有 NAS 方法存在的理论基础薄弱、次优硬性剪枝及过度依赖超参数调优等问题。
- 构建一种基于可微架构搜索的严谨优化框架,以最小化操作选择中的遗憾。
- 通过擦除机制实现对低质量架构的动态剪枝,并支持后期表现优异的专家恢复。
- 通过理论保证推导学习率调度,降低对人工超参数调优的依赖。
提出的方法
- 将 NAS 搜索空间建模为可分离的预测专家建议(PEA)子空间,其中每个操作/连接均视为一个专家。
- 应用指数梯度(EG)算法优化架构权重,偏好稀疏性,并支持对表现较差的专家进行动态剪枝。
- 引入擦除机制,在训练过程中移除低质量专家,并允许后期潜在有效的专家被恢复。
- 基于梯度信息,为每组专家设置多个学习率,受理论遗憾边界指导。
- 采用非衰减的架构权重更新规则,防止任意架构选择。
- 采用基于奖励的目标函数,增强对初始化的鲁棒性,并支持后期表现型操作的恢复。
实验结果
研究问题
- RQ1基于 PEA 的理论驱动优化方法是否能提升可微 NAS 的鲁棒性与性能?
- RQ2如何在不依赖一次性硬性剪枝决策的前提下,实现神经架构组件的动态剪枝与恢复?
- RQ3基于理论遗憾边界的自适应学习率是否能带来更优的架构搜索性能并降低对超参数的敏感性?
- RQ4所学习架构的深度与复杂度在多大程度上促进了基准数据集上准确率的提升?
- RQ5该方法是否能在多样化的数据集上实现最先进性能,同时保持理论保证?
主要发现
- XNAS 在 CIFAR-10 上实现 1.60% 的 top-1 错误率,相比以往 NAS 方法提升超过 20%。
- 在移动设置下的 ImageNet 上,XNAS 实现 24% 的 top-1 错误率,展现出在大规模基准上的强劲性能。
- 该方法在所评估的七个数据集中的三个上达到最先进性能,并在其余四个中位列顶尖 NAS 方法之列。
- XNAS 学习到的正常单元平均连接深度达 1.375,显著高于其他 NAS 方法,表明其具有更高的架构复杂度与表达能力。
- 由于采用非衰减权重更新规则与自适应学习率,XNAS 对初始化具有鲁棒性,并能实现对后期表现型专家的恢复。
- 该算法实现了最优最坏情况遗憾边界,为其架构选择策略提供了强有力的理论依据。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。