[论文解读] Does Unsupervised Architecture Representation Learning Help Neural Architecture Search?
arch2vec 通过一个无监督的变分图自编码器预训练架构表示,将表示学习与搜索解耦,产生更平滑的潜在空间,从而在多种搜索空间和策略下提升 NAS 效率。
Existing Neural Architecture Search (NAS) methods either encode neural architectures using discrete encodings that do not scale well, or adopt supervised learning-based methods to jointly learn architecture representations and optimize architecture search on such representations which incurs search bias. Despite the widespread use, architecture representations learned in NAS are still poorly understood. We observe that the structural properties of neural architectures are hard to preserve in the latent space if architecture representation learning and search are coupled, resulting in less effective search performance. In this work, we find empirically that pre-training architecture representations using only neural architectures without their accuracies as labels considerably improve the downstream architecture search efficiency. To explain these observations, we visualize how unsupervised architecture representation learning better encourages neural architectures with similar connections and operators to cluster together. This helps to map neural architectures with similar performance to the same regions in the latent space and makes the transition of architectures in the latent space relatively smooth, which considerably benefits diverse downstream search strategies.
研究动机与目标
- 为 NAS 动机开展无监督的架构表示学习,以避免来自监督信号的偏差。
- 提出一种解耦的架构表示学习方法(arch2vec)。
- 评估无监督预训练是否在不同空间和策略下提升下游 NAS 的效率和鲁棒性。
提出的方法
- 提出 arch2vec,一种变分图同构自编码器,仅使用结构信息对架构进行编码(不使用准确率)。
- 使用 Graph Isomorphism Networks (GINs) 获取节点嵌入,使用变分解码器重构邻接矩阵和操作矩阵。
- 以变分下界(包含重建损失和对高斯先验的 KL 散度)进行训练。
- 在带有预训练嵌入的情况下,使用 RL(REINFORCE)和贝叶斯优化(DNGO)评估下游 NAS 性能。
- 在 NAS-Bench-101、NAS-Bench-201 和 DARTS 上,与离散邻接基编码及监督架构表示学习进行比较。
- 给出预训练性能指标(重建、有效性、唯一性)和在各空间的 NAS 性能(测试遗憾、准确率)。
实验结果
研究问题
- RQ1无监督的架构表示预训练是否能产生比联合学习的有监督表示更平滑的潜在空间?
- RQ2当与 RL 和 BO 策略在多个搜索空间中结合时,arch2vec 嵌入是否提升 NAS 的效率和鲁棒性?
- RQ3无监督嵌入在多大程度上保留局部结构关系并预测架构性能?
- RQ4在与搜索联合学习表示时,架构搜索是否会因监督信号而产生偏差?
主要发现
| 模型 | NAS-Bench-101 重建 | NAS-Bench-101 有效性 | NAS-Bench-101 唯一性 | NAS-Bench-201 重建 | NAS-Bench-201 有效性 | NAS-Bench-201 唯一性 | DARTS 重建 | DARTS 有效性 | DARTS 唯一性 |
|---|---|---|---|---|---|---|---|---|---|
| GAE | 98.75 | 29.88 | 99.25 | 99.52 | 79.28 | 78.42 | 97.80 | 15.25 | 99.65 |
| VGAE | 97.45 | 41.18 | 99.34 | 98.32 | 79.30 | 88.42 | 96.80 | 25.25 | 99.27 |
| arch2vec (w.o. KL) | 100 | 30.31 | 99.20 | 100 | 77.09 | 96.57 | 99.46 | 16.01 | 99.51 |
| arch2vec | 100 | 44.97 | 99.69 | 100 | 79.41 | 98.72 | 99.79 | 33.36 | 100 |
- 在 NAS-Bench-101、NAS-Bench-201 和 DARTS 的重建、有效性和唯一性方面,arch2vec 超越 GAE 和 VGAE。
- arch2vec 嵌入在架构性能预测方面优于监督表示(更低的 RMSE 和更高的 Pearson r)。
- 在 arch2vec 中,潜在空间距离与架构的编辑距离单调相关,表明保留了结构上的接近性。
- t-SNE 可视化显示 arch2vec 嵌入覆盖潜在空间,并对相似准确率进行聚类,而监督对手相比,其连续性较弱。
- 使用 arch2vec 的下游 NAS(RL 与 BO)在最终性能和鲁棒性方面相比基线具有竞争力甚至优越,arch2vec-BO 与 arch2vec-RL 在各数据集通常得到最佳结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。