[论文解读] Understanding Neural Architecture Search Techniques
本文研究了为何如ENAS之类的神经架构搜索(NAS)方法在控制器可解释性较弱的情况下仍能表现良好。研究发现,ENAS的RNN控制器无法编码过去的架构决策,导致其性能与随机搜索相当。通过引入一种基于记忆的正则化技术,使控制器在训练中依赖于先前动作,作者提升了隐藏状态的可解释性,并增强了控制器嵌入与架构相似性度量之间的相关性,证明了更优的控制器设计可使NAS性能超越权重共享启发式方法。
Automatic methods for generating state-of-the-art neural network architectures without human experts have generated significant attention recently. This is because of the potential to remove human experts from the design loop which can reduce costs and decrease time to model deployment. Neural architecture search (NAS) techniques have improved significantly in their computational efficiency since the original NAS was proposed. This reduction in computation is enabled via weight sharing such as in Efficient Neural Architecture Search (ENAS). However, recently a body of work confirms our discovery that ENAS does not do significantly better than random search with weight sharing, contradicting the initial claims of the authors. We provide an explanation for this phenomenon by investigating the interpretability of the ENAS controller's hidden state. We find models sampled from identical controller hidden states have no correlation with various graph similarity metrics, so no notion of structural similarity is learned. This failure mode implies the RNN controller does not condition on past architecture choices. Lastly, we propose a solution to this failure mode by forcing the controller's hidden state to encode pasts decisions by training it with a memory buffer of previously sampled architectures. Doing this improves hidden state interpretability by increasing the correlation between controller hidden states and graph similarity metrics.
研究动机与目标
- 探究为何ENAS及类似NAS方法在控制器可解释性较弱的情况下仍能取得优异性能。
- 诊断为何ENAS中的策略梯度训练未能在控制器隐藏状态中形成有意义的架构偏差。
- 解决RNN控制器未对过去动作进行条件依赖的失败模式,导致其性能与随机搜索无异。
- 提出一种正则化技术,强制控制器编码过去决策,以提升可解释性与搜索效率。
- 评估改进后的控制器嵌入是否与实际的架构相似性相关。
提出的方法
- 在策略梯度训练期间,引入一个存储先前采样架构的记忆缓冲区,以正则化控制器的隐藏状态。
- 通过监督损失训练控制器,使最终隐藏状态反映采样过程中做出的架构选择。
- 采用结合策略梯度与监督学习的混合损失:$\mathcal{L} = \mathcal{L}_{PG} + \mathcal{L}_{Sup}$。
- 使用从旧控制器参数采样的架构构建记忆缓冲区,以避免分布偏移和作弊问题。
- 通过最终隐藏状态之间的L2距离测量控制器嵌入相似性,并与基于图的架构度量进行相关性分析。
- 通过斯皮尔曼等级相关系数评估嵌入距离与架构相似性度量(如共同激活函数、连接数、图编辑距离)之间的关系。
实验结果
研究问题
- RQ1ENAS控制器的隐藏状态是否编码了关于过去架构决策的有意义信息?
- RQ2为何ENAS的性能与随机搜索相似,尽管使用了强化学习?
- RQ3能否通过正则化技术提升控制器隐藏状态的可解释性,从而强制其对过去动作进行条件依赖?
- RQ4控制器嵌入空间中的距离在多大程度上反映了实际的架构相似性?
- RQ5嵌入距离与不同架构间验证性能差异之间是否存在相关性?
主要发现
- ENAS控制器的隐藏状态与架构相似性度量之间无显著相关性,表明其未能学习到结构依赖关系。
- 采用权重共享的随机搜索性能与ENAS相当,表明性能提升并非源于智能架构搜索,而是权重共享造成的混淆。
- 所提出的监督正则化技术显著提高了控制器隐藏状态与架构相似性之间的相关性,尤其在共同激活函数(斯皮尔曼等级相关系数 r = -0.404)和性能差异(r = 0.163)方面表现突出。
- 监督训练的控制器在不同架构下表现出明显的隐藏状态差异,而无监督控制器则坍缩为单一确定性输出。
- 在正则化下,最可能动作的概率开始依赖于先前决策,表明对过去选择的条件依赖性得到改善。
- 结果表明,通过改进控制器设计可进一步提升NAS性能,而无需完全依赖权重共享机制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。