[论文解读] Blockwisely Supervised Neural Architecture Search with Knowledge Distillation
本文提出了一种基于知识蒸馏的分块有监督神经架构搜索方法(DNA),该方法将神经架构搜索划分为模块化块,以实现候选架构的完整、公平训练,从而减少参数共享带来的误差。通过匹配教师模型的特征图来蒸馏架构知识,DNA在移动设置下实现了ImageNet上的最先进性能,top-1准确率达到78.4%,较EfficientNet-B0高出2.1%,甚至超越了其教师模型的性能。
Neural Architecture Search (NAS), aiming at automatically designing network architectures by machines, is hoped and expected to bring about a new revolution in machine learning. Despite these high expectation, the effectiveness and efficiency of existing NAS solutions are unclear, with some recent works going so far as to suggest that many existing NAS solutions are no better than random architecture selection. The inefficiency of NAS solutions may be attributed to inaccurate architecture evaluation. Specifically, to speed up NAS, recent works have proposed under-training different candidate architectures in a large search space concurrently by using shared network parameters; however, this has resulted in incorrect architecture ratings and furthered the ineffectiveness of NAS. In this work, we propose to modularize the large search space of NAS into blocks to ensure that the potential candidate architectures are fully trained; this reduces the representation shift caused by the shared parameters and leads to the correct rating of the candidates. Thanks to the block-wise search, we can also evaluate all of the candidate architectures within a block. Moreover, we find that the knowledge of a network model lies not only in the network parameters but also in the network architecture. Therefore, we propose to distill the neural architecture (DNA) knowledge from a teacher model as the supervision to guide our block-wise architecture search, which significantly improves the effectiveness of NAS. Remarkably, the capacity of our searched architecture has exceeded the teacher model, demonstrating the practicability and scalability of our method. Finally, our method achieves a state-of-the-art 78.4\% top-1 accuracy on ImageNet in a mobile setting, which is about a 2.1\% gain over EfficientNet-B0. All of our searched models along with the evaluation code are available online.
研究动机与目标
- 解决现有单次NAS方法因依赖训练不充分的共享权重进行架构评估而导致的低效与不准确问题。
- 通过将搜索空间模块化为块,实现每个块内候选架构的完整且公平训练,从而提升NAS的有效性。
- 通过引入一种新颖的架构蒸馏方法,利用教师模型的特征图传递知识,克服贪婪分块搜索中缺乏监督的问题。
- 使搜索得到的架构能够超越教师模型的性能,证明方法的可扩展性与实用性。
提出的方法
- 将搜索空间分解为离散块,每一块包含一组架构选择,从而实现对块内所有候选架构的完整训练。
- 提出一种新颖的蒸馏方法——DNA,通过在块之间匹配特征图,利用学生与教师激活之间的MSE损失,将知识从教师模型蒸馏到学生模型。
- 使用教师模型的特征图作为每一块的输入,分块训练学生超网络,确保在搜索过程中保持架构知识的完整性。
- 引入多单元超网络设计,提升通道与深度方面的架构多样性,增强搜索能力。
- 采用渐进式、分块训练与评估策略,每个块的架构选择均基于完整训练与蒸馏指导。
- 最终架构在无教师监督的情况下从头开始重新训练,验证了该方法的泛化能力与可扩展性。
实验结果
研究问题
- RQ1将搜索空间模块化为块,是否能提升单次NAS中架构评估的准确率与可靠性?
- RQ2从教师模型的特征图中蒸馏架构知识,是否能增强分块架构搜索的有效性?
- RQ3即使教师模型并非性能最佳,搜索得到的架构是否仍能超越教师模型的准确率?
- RQ4所搜索架构的性能随模型规模如何变化?是否能超越更大的教师模型?
主要发现
- 所提出的DNA方法在移动设置下实现了ImageNet上78.4%的最先进top-1准确率,较EfficientNet-B0高出2.1%。
- 参数量为528万的搜索模型(DNA-B7)达到77.8%的top-1准确率,与参数量高达6600万的EfficientNet-B7教师模型性能相当。
- 当扩展至6490万参数时,DNA-B7模型达到79.9%的top-1准确率,超越其6600万参数教师模型2.1%。
- 该方法对教师质量具有鲁棒性:以EfficientNet-B0为教师时,所得到的模型(DNA-B0)在相同参数量下超越教师模型1.5%。
- 消融实验证实,多单元搜索与蒸馏策略显著提升准确率,所提出的蒸馏方法分别较S1和S2基线高出0.3%与0.2%。
- 学生超网络成功在所有通道与空间维度上模仿教师模型的特征图,即使在抽象的14×14特征图上也表现良好,证实了知识迁移的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。