[论文解读] How to Train Your Super-Net: An Analysis of Training Heuristics in Weight-Sharing NAS
本文系统评估了权重共享神经架构搜索(NAS)中的训练启发式方法,发现诸如路径丢弃和批量归一化等常见实践会显著降低超网络性能。通过引入稀疏 Kendall-Tau 相关系数度量并优化超参数,作者在 NASBench-101 上将相关性从 0.22 提升至 0.46,建立了一个可复现的基线,用于公平比较 NAS 方法。
Weight sharing promises to make neural architecture search (NAS) tractable even on commodity hardware. Existing methods in this space rely on a diverse set of heuristics to design and train the shared-weight backbone network, a.k.a. the super-net. Since heuristics and hyperparameters substantially vary across different methods, a fair comparison between them can only be achieved by systematically analyzing the influence of these factors. In this paper, we therefore provide a systematic evaluation of the heuristics and hyperparameters that are frequently employed by weight-sharing NAS algorithms. Our analysis uncovers that some commonly-used heuristics for super-net training negatively impact the correlation between super-net and stand-alone performance, and evidences the strong influence of certain hyperparameters and architectural choices. Our code and experiments set a strong and reproducible baseline that future works can build on.
研究动机与目标
- 识别并评估常见训练启发式方法对权重共享 NAS 中超网络性能的影响。
- 解决由于超参数和架构选择不一致导致的 NAS 方法间缺乏公平比较的问题。
- 提出一种更可靠的度量标准——稀疏 Kendall-Tau,用于评估超网络训练质量。
- 通过随机搜索建立一个可复现的、最先进的权重共享 NAS 基线。
- 证明某些广泛采用的启发式方法会负面影响性能,而其他方法影响甚微。
提出的方法
- 作者在三个基准搜索空间(NASBench-101、NASBench-201 和 DARTS-NDS)上开展了系统性消融研究。
- 评估了 14 个超参数和架构选择,包括初始学习率、批量大小、通道宽度、路径丢弃率以及归一化技术。
- 提出一种新度量标准——稀疏 Kendall-Tau(S-KdT),用于衡量超网络排名与真实独立模型性能之间的相关性。
- 研究采用受控的训练协议,同时评估代理指标(如 P > R)和最终架构性能。
- 作者在 NASBench-101 上使用优化后的超参数重新训练超网络,将 S-KdT 显著提升至 0.46。
- 所有代码和训练好的模型均已发布,以确保可复现性,并作为统一的 WS-NAS 基准。
实验结果
研究问题
- RQ1在权重共享 NAS 中,哪些训练启发式方法对超网络性能及其与最终架构准确率的相关性影响最大?
- RQ2诸如路径丢弃、批量归一化和权重初始化等常见实践如何影响超网络排名的可靠性?
- RQ3通常使用的超网络准确率与所搜索模型的真实性能之间的相关性在多大程度上成立?
- RQ4像稀疏 Kendall-Tau 这类更稳健的度量标准,是否能在评估超网络训练质量方面优于标准准确率?
- RQ5哪些超参数和架构选择对于在最小计算成本下实现高性能 NAS 至关重要?
主要发现
- 通常使用的超网络准确率度量标准与最终独立模型性能的相关性较低(相关系数为 0.236),限制了其作为评估指标的可靠性。
- 路径丢弃率在 0.15 及以上时会显著降低性能,导致 NASBench-101 上的 S-KdT 从 0.236 降至 0.186。
- 采用批量归一化的权重共享(WSBN)会导致性能极差,NASBench-101 上的 S-KdT 降至 0.085。
- 所提出的稀疏 Kendall-Tau 度量标准在超参数优化后,与最终模型性能的相关性显著提升至 0.46。
- 将层数减少一层会使 S-KdT 从 0.236 降至 0.214,表明更深的超网络并不总是更优。
- 在 NASBench-101 上最终优化后的超网络实现了 0.46 的 S-KdT,相比基线提升了 93%,实现了使用随机搜索的最先进性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。