[论文解读] Automated Machine Learning: State-of-The-Art and Open Challenges
本论文综述解决CASH的AutoML方法,综述元学习、NAS、超参数优化和AutoML工具,并讨论开放挑战和未来方向。
With the continuous and vast increase in the amount of data in our digital world, it has been acknowledged that the number of knowledgeable data scientists can not scale to address these challenges. Thus, there was a crucial need for automating the process of building good machine learning models. In the last few years, several techniques and frameworks have been introduced to tackle the challenge of automating the process of Combined Algorithm Selection and Hyper-parameter tuning (CASH) in the machine learning domain. The main aim of these techniques is to reduce the role of the human in the loop and fill the gap for non-expert machine learning users by playing the role of the domain expert. In this paper, we present a comprehensive survey for the state-of-the-art efforts in tackling the CASH problem. In addition, we highlight the research work of automating the other steps of the full complex machine learning pipeline (AutoML) from data understanding till model deployment. Furthermore, we provide comprehensive coverage for the various tools and frameworks that have been introduced in this domain. Finally, we discuss some of the research directions and open challenges that need to be addressed in order to achieve the vision and goals of the AutoML process.
研究动机与目标
- 调查AutoML中CASH(Combined Algorithm Selection and Hyper-parameter tuning)的最新方法。
- 突出从数据理解到部署的端到端ML管道的自动化处理。
- 覆盖支持AutoML的工具和框架。
- 讨论AutoML中的开放挑战和未来研究方向。
提出的方法
- 提出CASH和AutoML方法的分类法及其基于分类法的综述。
- 总结用于为AutoML搜索提供热启动的元学习技术。
- 描述神经架构搜索(NAS)的类别与方法。
- 回顾自动化超参数优化技术(黑箱与多保真度)。
- 编目AutoML的工具与框架及其设计选择(集中式、分布式、云端)。
- 概述ML管道中的建模前自动化和建模后自动化步骤。
实验结果
研究问题
- RQ1当前的CASH前沿方法是什么,它们如何在性能与搜索成本之间取得平衡?
- RQ2元学习、NAS和超参数优化如何提升AutoML的效率与有效性?
- RQ3现有哪些AutoML框架与工具,它们各自的优劣和局限性是什么?
- RQ4在从数据理解到部署的整条ML流水线自动化中,仍存在哪些开放挑战?
主要发现
- 元学习和先前任务信息被用于为AutoML搜索提供热启动并降低搜索时间。
- NAS 技术分为五大类:随机搜索、强化学习、基于梯度、进化和贝叶斯优化,在不同任务上取得的成功各不相同。
- 超参数优化分为黑箱和多保真度方法,包括贝叶斯优化、TPE、SMAC、SA、GA,以及基于学习曲线的终止。
- 存在多种AutoML工具/框架(Auto-Weka、Auto-Sklearn、TPOT、ML-Plan、Hyperopt-Sklearn、Recipe、Auto-MEKA_GGP、SmartML),具有如元学习、集成、基于文法的搜索和分层流水线等不同设计选择。
- 本文提供了AutoML资源库并讨论从数据理解到部署的端到端自动化。
- 开放挑战包括可扩展性、效率,以及跨不同领域整合多样化流水线组件。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。