[论文解读] Meta Architecture Search
本文提出了贝叶斯元架构搜索(BASE),一种元学习框架,通过贝叶斯公式化方法在神经架构空间上学习一种与任务无关的先验分布。通过在多样化图像分类任务分布上进行训练,BASE 实现了对新任务的快速、亚小时级适应,ImageNet 上达到 25.7% 的 top-1 错误率,CIFAR-10 上达到 2.83%,与标准 NAS 相比显著降低了计算成本,同时达到最先进性能。
Neural Architecture Search (NAS) has been quite successful in constructing state-of-the-art models on a variety of tasks. Unfortunately, the computational cost can make it difficult to scale. In this paper, we make the first attempt to study Meta Architecture Search which aims at learning a task-agnostic representation that can be used to speed up the process of architecture search on a large number of tasks. We propose the Bayesian Meta Architecture SEarch (BASE) framework which takes advantage of a Bayesian formulation of the architecture search problem to learn over an entire set of tasks simultaneously. We show that on Imagenet classification, we can find a model that achieves 25.7% top-1 error and 8.1% top-5 error by adapting the architecture in less than an hour from an 8 GPU days pretrained meta-network. By learning a good prior for NAS, our method dramatically decreases the required computation cost while achieving comparable performance to current state-of-the-art methods - even finding competitive models for unseen datasets with very quick adaptation. We believe our framework will open up new possibilities for efficient and massively scalable architecture search research across multiple tasks.
研究动机与目标
- 为解决在多个任务上重复进行神经架构搜索(NAS)带来的高计算成本,通过学习一个共享的、与任务无关的先验分布。
- 通过预训练的元网络,实现在新任务上对架构和权重的快速适应。
- 将架构搜索建模为任务分布上的贝叶斯推理问题,以提升泛化能力和效率。
- 在多样化的基准测试(包括 ImageNet、CIFAR-10、SVHN 和少样本学习)上展示该框架的有效性。
- 探索使用优化嵌入(optimization embedding)和 Gumbel-Softmax 方法,实现可微分、端到端的元架构学习。
提出的方法
- 提出一种架构搜索的贝叶斯公式化方法,将架构和权重的后验分布建模为任务分布上的分布。
- 使用带有 Gumbel-Softmax 参数化的随机神经网络,实现对架构空间中所有路径的可微分架构搜索。
- 采用优化嵌入方法,将后验分布条件化于任务特定信息,实现权重与架构的联合学习。
- 在由 ImageNet 通过改变类别子集和图像分辨率(32×32、64×64、224×224)生成的 2.634×10^23 个合成任务分布上训练元网络。
- 通过微调预训练的元网络,实现在一小时内联合优化架构和权重,以适应新任务。
- 通过直接使用元网络在低样本设置下搜索通用架构,将该框架应用于少样本学习。
实验结果
研究问题
- RQ1是否可以训练一个单一元网络,以实现在广泛图像分类任务分布上的快速、高精度架构搜索?
- RQ2与特定任务的 NAS 相比,学习架构上的贝叶斯先验在提升泛化能力与降低搜索成本方面有何优势?
- RQ3在 ImageNet 类似任务上训练的元网络,能在多大程度上泛化到未见过的数据集(如 CIFAR-10 或 Mini-Imagenet)?
- RQ4在适应过程中联合优化架构与权重是否比冻结架构参数能获得更好的性能?
- RQ5该元架构搜索框架能否有效应用于数据极度有限的少样本学习场景?
主要发现
- BASE 在不到一小时内通过微调元网络,在 ImageNet 上实现 25.7% 的 top-1 错误率和 8.1% 的 top-5 错误率,仅需 8 个 GPU 天的预训练。
- 在 CIFAR-10 上,适应后的元网络在不到一小时内实现 2.83% 的 top-1 错误率,效率优于标准 NAS。
- 在 5-way 5-shot Mini-Imagenet 基准上,元网络达到 66.2% 的准确率,优于 MAML 基线和 DARTS 架构,尽管参数量更少。
- 在适应过程中冻结架构参数会显著降低性能,证明了架构与权重联合优化的重要性。
- Gumbel-Softmax 参数化生成的架构优于 DARTS 中使用的标准 softmax 近似,表明搜索质量更高。
- 尽管元网络从未在 CIFAR-10 上进行过训练,其后验分布仍能快速适应该数据集,展现出强大的零样本泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。