QUICK REVIEW

[논문 리뷰] Benchmark and Survey of Automated Machine Learning Frameworks

Marc-André Zöller, Marco F. Huber|arXiv (Cornell University)|2019. 04. 26.

Machine Learning and Data Classification인용 수 16

한 줄 요약

이 논문은 137개의 실제 데이터셋을 대상으로 14개의 자동화된 머신러닝(AutoML) 프레임워크와 8개의 하이퍼파rameter 최적화(HPO) 알고리즘에 대한 종합적인 서베이 및 벤치마크를 제시한다. AutoML 프레임워크는 73개의 데이터셋에서 평가되었고, HPO 방법은 137개에서 평가되었으며, 현재까지 가장 광범위한 독립적 벤치마크를 제공하여 기존의 AutoML 접근 방식에서의 성능 차이와 한계를 드러낸다.

ABSTRACT

Machine learning (ML) has become a vital part in many aspects of our daily life. However, building well performing machine learning applications requires highly specialized data scientists and domain experts. Automated machine learning (AutoML) aims to reduce the demand for data scientists by enabling domain experts to build machine learning applications automatically without extensive knowledge of statistics and machine learning. This paper is a combination of a survey on current AutoML methods and a benchmark of popular AutoML frameworks on real data sets. Driven by the selected frameworks for evaluation, we summarize and review important AutoML techniques and methods concerning every step in building an ML pipeline. The selected AutoML frameworks are evaluated on 137 data sets from established AutoML benchmark suits.

연구 동기 및 목표

머신러닝 파이프라인 제작의 모든 단계를 포함하여 전처리, 특징 공학, 모델 선택, 하이퍼파ram터 튜닝을 아우르는 현재의 AutoML 기법에 대한 종합적인 서베이를 제공하는 것.
137개의 실제 데이터셋에서 8개의 HPO 알고리즘을 대상으로 독립적이고 대규모의 벤치마크를 수행하여, HPO 방법을 고립된 상태에서 평가한 최초의 종합적 평가를 제공하는 것.
73개의 실제 데이터셋에서 6개의 AutoML 프레임워크를 실험적으로 평가하여 다양한 데이터 특성에 걸쳐 성능, 효율성, 내구성 측면에서의 비교를 수행하는 것.
현재의 AutoML 시스템에서 복잡한 파이프라인 구조의 자동화 및 확장성에 관해 아직 남아 있는 한계와 연구 과제를 규명하는 것.
자동화된 머신러닝 파이프라인 합성에 대한 수학적 공식을 수립하고 기존 문헌의 문제 공식화와 비교하는 것.

제안 방법

저자는 OpenML에서 제공하는 표준화된 벤치마크 데이터셋을 기반으로 auto-sklearn, H2O AutoML, TPOT, ATM, BOHB, SMAC, hyperopt, Optunity 등 14개의 AutoML 및 HPO 프레임워크를 평가한다.
HPO 벤치마크에서는 랜덤 서치, 베이지안 최적화(BOHB, SMAC, BOHB), 트리 기반 파르젠 추정기(TPE), Hyperopt, Optuna, RoBO를 포함한 8개의 알고리즘을 137개의 실제 데이터셋을 사용해 표준 분류 지표로 비교한다.
AutoML 프레임워크 평가에는 OpenML의 73개 데이터셋을 사용하며, 모든 프레임워크의 평균 정확도와 런타임을 측정하고, Wilcoxon 부호 순위 검정을 통해 통계적 유의성을 평가한다.
자동화된 머신러닝 파이프라인 합성을 위한 수학적 공식을 제안하며, 파이프라인 구조 탐색, 알고리즘 선택, 하이퍼파ram터 최적화를 통합된 프레임워크로 통합한다.
프레임워크 및 HPO 방법 간의 성능 차이를 시각화하기 위해 Bland-Altman 플롯과 산점도를 활용한 쌍대 비교 전략을 채택한다.
실행에 실패하거나 누락된 경우(‘–’로 표기)의 처리를 포함하며, 결과는 신뢰구간과 통계적 유의성 검정을 통해 보고된다.

실험 결과

연구 질문

RQ1다양한 실제 데이터셋에서 베이지안 최적화, 랜덤 서치, TPE 등의 HPO 알고리즘이 예측 성능과 효율성 측면에서 어떻게 비교되는가?
RQ2다양한 실제 분류 작업 전반에서 평균 정확도가 가장 높고 수렴 속도가 가장 빠른 AutoML 프레임워크는 무엇인가?
RQ3현재의 AutoML 프레임워크는 복잡하거나 고차원 데이터를 다룰 때 어떤 한계를 보이며, 다양한 데이터 유형 간 내구성 측면에서 어떻게 비교되는가?
RQ4AutoML 프레임워크는 도메인 전문 지식 없이도 특징 공학, 전처리, 모델 선택을 포함한 전체 파이프라인을 얼마나 잘 자동화하는가?
RQ5HPO 방법의 성능 특성은 데이터셋 크기, 클래스 불균형, 특징 복잡도에 따라 어떻게 변화하는가?

주요 결과

BOHB(Bayesian Optimization Hyperband)는 137개의 데이터셋에서 평균 정확도 0.82910을 기록하여 HPO 알고리즘 중에서 가장 높은 성능을 보이며, 랜덤 서치 및 기타 기준선보다 유의미하게 뛰어난 성능을 보였다.
auto-sklearn와 H2O AutoML는 전반적인 성능이 뛰어나며, auto-sklearn는 73개의 데이터셋에서 평균 정확도 0.81075를 기록하여 상위 프레임워크 중 하나로 평가되었다.
단순함에도 불구하고 랜덤 서치는 많은 경우에서 경쟁력을 보였으며, 고급 베이지안 최적화 방법과 비교해 성능 저하가 미미했다.
TPOT와 hyperopt-sklearn와 같은 일부 프레임워크는 성능에 높은 변동성을 보였으며, 10~15%의 데이터셋에서 유효한 파이프라인을 생성하지 못해 ‘–’로 표기된 경우가 있었다.
신경망 아키텍처 탐색 또는 딥러닝 구성 요소를 활용하는 프레임워크(예: TPOT)는 소규모 또는 테이블 기반 데이터셋에서 더 불안정했으며, 수렴하지 못하는 경우가 많았다.
통계 분석 결과, SMAC와 BOHB는 일관되게 상위 성능의 HPO 방법으로 나타났으며, SMAC는 다른 방법들에 비해 통계적으로 유의미한 승리 수가 가장 많았다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.