[论文解读] Federated Neural Architecture Search
本文提出联邦神经架构搜索(Federated NAS),一种新颖的范式,可在去中心化、保护隐私的联邦学习中实现自动化神经架构搜索。通过引入DecNAS——一种具备并行候选训练、动态轮次调度和早期候选淘汰机制的框架——其在保持与集中式NAS相当的最先进准确率的同时,将客户端通信和计算成本降低了高达200倍。
To preserve user privacy while enabling mobile intelligence, techniques have been proposed to train deep neural networks on decentralized data. However, training over decentralized data makes the design of neural architecture quite difficult as it already was. Such difficulty is further amplified when designing and deploying different neural architectures for heterogeneous mobile platforms. In this work, we propose an automatic neural architecture search into the decentralized training, as a new DNN training paradigm called Federated Neural Architecture Search, namely federated NAS. To deal with the primary challenge of limited on-client computational and communication resources, we present FedNAS, a highly optimized framework for efficient federated NAS. FedNAS fully exploits the key opportunity of insufficient model candidate re-training during the architecture search process, and incorporates three key optimizations: parallel candidates training on partial clients, early dropping candidates with inferior performance, and dynamic round numbers. Tested on large-scale datasets and typical CNN architectures, FedNAS achieves comparable model accuracy as state-of-the-art NAS algorithm that trains models with centralized data, and also reduces the client cost by up to two orders of magnitude compared to a straightforward design of federated NAS.
研究动机与目标
- 为解决在去中心化、保护隐私的联邦学习环境中设计高效神经架构的挑战。
- 降低在资源受限的移动客户端上进行神经架构搜索(NAS)所产生的高计算和通信成本。
- 实现自动化的架构搜索,以适应具有不同资源预算的异构移动平台。
- 在通过联邦训练保护数据隐私的同时,保持与集中式NAS相当的高模型准确率。
- 开发一种可扩展且高效的框架,动态优化客户端资源使用情况,以支持架构搜索。
提出的方法
- DecNAS将架构搜索与模型训练解耦,由云端负责搜索协调,客户端负责本地训练,从而保护数据隐私。
- 通过将客户端分组,实现并行调优,使不同客户端组能够同时训练和测试多个DNN候选架构。
- 采用一种合理的客户端分组算法,确保每组均代表多样化的数据分布和规模,从而提升候选评估的泛化能力。
- 动态轮次调度根据性能趋势调整每个候选的训练轮次数,减少不必要的计算开销。
- 在完成最少训练后,对表现不佳的候选进行早期淘汰,从而消除无效训练周期,节省客户端资源。
- 该框架采用代理任务方法,通过有限次微调推断候选性能,利用NAS中的内在冗余性,减少完整微调的需要。
实验结果
研究问题
- RQ1能否在去中心化、保护隐私的联邦学习环境中高效地执行神经架构搜索?
- RQ2在不牺牲模型准确率的前提下,如何最小化联邦NAS过程中客户端的计算和通信成本?
- RQ3部分客户端参与和动态轮次调度在资源受限条件下对保持搜索准确率起到何种作用?
- RQ4客户端之间非独立同分布(non-iid)的数据分布如何影响联邦设置中架构搜索的可靠性?
- RQ5早期淘汰和并行训练在多大程度上能够降低端到端搜索成本,同时保持性能?
主要发现
- 在ImageNet上,DecNAS实现了68.8%的top-1准确率,且模型复杂度仅为MobileNet的75%,性能与集中式NAS相当,同时将客户端上行链路成本降低了高达86%。
- 在100个客户端组设置下,与默认的14组设置相比,DecNAS将客户端通信成本降低了86%,尽管准确率下降了0.3%。
- 仅使用7个客户端组时,与默认设置相比,上行链路成本增加了100%,且准确率仅提高0.1%,证实了过度分组的低效性。
- 少于10轮的短期微调导致准确率下降,表明模型收敛不足,凸显了动态轮次调度的必要性。
- 在架构生成后进行长期微调,可使模型准确率最高提升20%,证明了后期扩展训练的价值。
- 与朴素的联邦NAS实现相比,DecNAS将客户端成本降低了高达200倍,使大规模移动设备部署成为可能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。