[논문 리뷰] Automated Machine Learning: State-of-The-Art and Open Challenges
이 논문은 CASH를 다루는 AutoML 접근법을 조사하고, 메타러닝, NAS, 하이퍼파라미터 최적화 및 AutoML 도구를 조사하며, 향후 과제와 미래 방향에 대해 논의한다.
With the continuous and vast increase in the amount of data in our digital world, it has been acknowledged that the number of knowledgeable data scientists can not scale to address these challenges. Thus, there was a crucial need for automating the process of building good machine learning models. In the last few years, several techniques and frameworks have been introduced to tackle the challenge of automating the process of Combined Algorithm Selection and Hyper-parameter tuning (CASH) in the machine learning domain. The main aim of these techniques is to reduce the role of the human in the loop and fill the gap for non-expert machine learning users by playing the role of the domain expert. In this paper, we present a comprehensive survey for the state-of-the-art efforts in tackling the CASH problem. In addition, we highlight the research work of automating the other steps of the full complex machine learning pipeline (AutoML) from data understanding till model deployment. Furthermore, we provide comprehensive coverage for the various tools and frameworks that have been introduced in this domain. Finally, we discuss some of the research directions and open challenges that need to be addressed in order to achieve the vision and goals of the AutoML process.
연구 동기 및 목표
- AutoML에서 Combined Algorithm Selection and Hyper-parameter tuning(CASH)의 최신 방법을 조사한다.
- 데이터 이해에서 배포에 이르기까지 엔드투엔드 ML 파이프라인의 자동 처리의 중요성을 강조한다.
- AutoML을 가능하게 하는 도구와 프레임워크의 커버리지를 제공한다.
- AutoML에서 남아있는 오픈 챌린지와 향후 연구 방향을 논의한다.
제안 방법
- CASH 및 AutoML 접근법에 대한 분류학 및 분류학 주도 연구를 제시한다.
- AutoML 탐색을 워밍업하기 위한 메타러닝 기법을 요약한다.
- Neural Architecture Search(NAS) 분류 및 방법을 설명한다.
- 블랙박스 및 다중충실도 기반의 자동 하이퍼파라미터 최적화 기법을 검토한다.
- AutoML 도구 및 프레임워크와 그 설계 선택(중심집중식, 분산형, 클라우드 기반)을 카탈로그화한다.
- ML 파이프라인의 모델링 전 및 후 자동화 단계를 개요한다.
실험 결과
연구 질문
- RQ1CASH에 대한 현재 최첨단 접근법은 무엇이며, 성능과 탐색 비용 사이의 균형은 어떻게 이루어지는가?
- RQ2메타러닝, NAS, 하이퍼파라미터 최적화가 AutoML의 효율성과 효과에 어떻게 기여하는가?
- RQ3AutoML용 프레임워크와 도구는 무엇이 있으며, 각각의 비교적 강점과 한계는 무엇인가?
- RQ4데이터 이해에서 배포에 이르는 전체 ML 파이프라인 자동화에서 남아있는 오픈 챌린지는 무엇인가?
주요 결과
- 메타러닝과 선행 작업 정보를 활용하여 AutoML 탐색을 워밍업하고 탐색 시간을 줄인다.
- NAS 기술은 다섯 가지 범주로 분류되며: 임의 탐색, 강화학습, 그래디언트 기반, 진화적, 베이지안 최적화이며 작업에 따라 성공 여부가 다르다.
- 하이퍼파라미터 최적화는 블랙박스와 다중충실도 approaches로 분류되며, 베이지안 최적화, TPE, SMAC, SA, GA, 학습 곡선 기반 종료를 포함한다.
- 여러 AutoML 도구/프레임워크가 존재하며(Auto-Weka, Auto-Sklearn, TPOT, ML-Plan, Hyperopt-Sklearn, Recipe, Auto-MEKA_GGP, SmartML), 메타러닝, 앙상블, 문법 기반 검색, 계층적 파이프라인과 같은 다양한 설계 선택을 보인다.
- 이 논문은 AutoML 자원 저장소를 제공하고 데이터 이해에서 배포까지의 엔드투엔드 자동화를 논의한다.
- 오픈 챌렌지로는 확장성, 효율성, 다양한 도메인 간 파이프라인 구성 요소의 통합이 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.