[论文解读] A Generic Graph-based Neural Architecture Encoding Scheme for Predictor-based NAS
该论文提出GATES,一种基于图的神经架构编码方案,将操作建模为信息传播的变换,模拟神经架构中的实际数据流。通过捕捉真实的计算行为并自然地处理同构架构,GATES提升了预测器的泛化能力,使基于预测器的神经架构搜索(NAS)的样本效率相比随机搜索提高了551倍,相比进化搜索提高了59倍。
This work proposes a novel Graph-based neural ArchiTecture Encoding Scheme, a.k.a. GATES, to improve the predictor-based neural architecture search. Specifically, different from existing graph-based schemes, GATES models the operations as the transformation of the propagating information, which mimics the actual data processing of neural architecture. GATES is a more reasonable modeling of the neural architectures, and can encode architectures from both the "operation on node" and "operation on edge" cell search spaces consistently. Experimental results on various search spaces confirm GATES's effectiveness in improving the performance predictor. Furthermore, equipped with the improved performance predictor, the sample efficiency of the predictor-based neural architecture search (NAS) flow is boosted. Codes are available at https://github.com/walkerning/aw_nas.
研究动机与目标
- 为解决现有神经架构编码方案在准确表示神经架构方面的局限性。
- 提升基于预测器的神经架构搜索(NAS)中性能预测器的泛化能力。
- 实现在'节点上的操作'(OON)和'边上的操作'(OOE)搜索空间中对架构的一致且有效的编码。
- 通过采用更具代表性且语义更明确的架构编码器,提升NAS中的样本效率。
- 提供一种统一的、模拟计算过程的编码方案,自然地将同构架构映射为相同的表示。
提出的方法
- GATES将神经架构建模为有向无环图(DAG),其中输入特征沿边传播,操作被视为对这些特征的变换。
- 每个操作(如Conv3x3、MaxPool)被建模为对输入特征张量应用的可学习变换,而非作为节点属性。
- 最终输出表示由输出节点处聚合的特征生成,形成整个单元架构的一致嵌入。
- 编码过程天然保留了同构性,确保结构上等价的架构获得相同的表示。
- 使用GATES编码的架构训练性能预测器,采用合页排序损失(hinge ranking loss)以优化准确的相对性能排序。
- 在OON和OOE搜索空间中均通过随机搜索和进化算法作为内部搜索策略对方法进行评估。
实验结果
研究问题
- RQ1基于图的编码方案若将操作建模为信息变换,能否提升NAS中性能预测器的泛化能力?
- RQ2与基于序列的编码器和传统图基编码器相比,GATES在预测器性能和样本效率方面表现如何?
- RQ3GATES是否能一致地将同构架构编码为相同的表示,从而提升鲁棒性和泛化能力?
- RQ4在基于预测器的NAS中使用GATES,与基线搜索策略相比,能在多大程度上提升样本效率?
- RQ5GATES能否在大规模或复杂搜索空间(如ENAS搜索空间)中实现高效的NAS,且仅需较少的架构评估?
主要发现
- 基于GATES的预测器NAS在找到最优架构前仅需评估400个架构,而进化搜索和随机搜索分别需237,000个和220,400个。
- 在相同评估协议下,GATES驱动的NAS样本效率比随机搜索高出551.0倍,比进化算法高出59.25倍。
- 在CIFAR-10数据集上,使用GATES发现的NAS架构测试误差为2.58%,显著优于其他方法,且仅评估了800个架构(而其他方法需1000至27,000个)。
- 在ImageNet上迁移时,GATES发现的架构仅用560万个参数即达到24.1%的top-1错误率,展现出强大的泛化能力和竞争力。
- 消融研究证实,样本比例 $ r $ 必须仔细调优,因为过小或过大的值均会因探索或利用不足而降低性能。
- GATES在OON和OOE搜索空间中均表现出一致的改进,证实了其泛化能力和鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。