QUICK REVIEW

[논문 리뷰] Auto-Sklearn 2.0: Hands-free AutoML via Meta-Learning

Matthias Feurer, Katharina Eggensperger|arXiv (Cornell University)|2020. 07. 08.

Machine Learning and Data Classification참고 문헌 111인용 수 9

한 줄 요약

Auto-sklearn 2.0은 메타학습과 포트폴리오 연속 절반화(PoSH)를 사용하여 자동화된 기계학습에서 고수준 설계 결정을 자동화하는 핸즈프리 AutoML 프레임워크를 도입합니다. 메타학습 기반의 설정 선택과 연속 절반화를 활용한 예산 할당 전략을 조합함으로써, 이전에는 60분이 걸렸던 1시간 성능을 이제는 10분 만에 달성하며 상대 오차를 최대 4.5배까지 감소시킵니다. 이는 기준 데이터셋에서의 성능을 높입니다.

ABSTRACT

Automated Machine Learning (AutoML) supports practitioners and researchers with the tedious task of designing machine learning pipelines and has recently achieved substantial success. In this paper, we introduce new AutoML approaches motivated by our winning submission to the second ChaLearn AutoML challenge. We develop PoSH Auto-sklearn, which enables AutoML systems to work well on large datasets under rigid time limits by using a new, simple and meta-feature-free meta-learning technique and by employing a successful bandit strategy for budget allocation. However, PoSH Auto-sklearn introduces even more ways of running AutoML and might make it harder for users to set it up correctly. Therefore, we also go one step further and study the design space of AutoML itself, proposing a solution towards truly hands-free AutoML. Together, these changes give rise to the next generation of our AutoML system, Auto-sklearn 2.0. We verify the improvements by these additions in an extensive experimental study on 39 AutoML benchmark datasets. We conclude the paper by comparing to other popular AutoML frameworks and Auto-sklearn 1.0, reducing the relative error by up to a factor of 4.5, and yielding a performance in 10 minutes that is substantially better than what Auto-sklearn 1.0 achieves within an hour.

연구 동기 및 목표

AutoML 시스템에서 모델 선택 및 예산 할당 전략과 같은 고수준 설계 결정 문제를 해결함으로써 사용성과 성능을 향상시키는 것.
파이프라인 검색뿐만 아니라 AutoML 프레임워크 자체의 설정까지 자동화하는 진정으로 핸즈프리인 AutoML 시스템을 개발하는 것.
특히 빠른 프로토타이핑 워크플로우에서의 실생활 구현을 위한 엄격한 시간 제약 조건 하에서 효율성과 성능을 향상시키는 것.
데이터셋의 메타특성 기반 메타학습을 통해 최적의 AutoML 설정을 자동으로 선택함으로써 전문가의 수동 조정이 필요로 하는 것을 줄이는 것.
메타학습과 적응형 예산 할당 전략을 활용하여 Auto-sklearn 1.0과 같은 기존 AutoML 프레임워크를 초월하여 엄격한 시간 제약 조건 하에서도 성능을 높이는 것.

제안 방법

연속 절반화(SH) 예산 할당 전략과 모델 선택 전략(예: 홀드아웃 또는 교차검증)을 조합한 PoSH Auto-sklearn를 도입하여 유망한 파이프라인에 자원을 동적으로 할당합니다.
알고리즘 선택 기반의 메타학습 기법을 활용하여 주어진 데이터셋에 가장 적합한 AutoML 설정(예: 홀드아웃 대비 교차검증, 전체 예산 대비 연속 절반화)을 자동으로 선택합니다.
OpenML의 208개 데이터셋에서 학습된 메타러닝 모델을 사용하여 새로운 데이터셋에 대한 최적 설정을 예측함으로써 수동 조정을 제거합니다.
다양한 설정을 동시에 평가하는 포트폴리오 기반 접근 방식을 적용하며, 성능 피드백을 활용해 메타학습된 결정을 정교화합니다.
시간 제약 조건 하에서 효율적인 탐색과 이용을 위해 밴딧 스타일의 예산 할당 전략을 활용합니다.
복잡한 데이터셋 기술 특성에 의존하지 않는 메타특성 없는 메타학습 접근 방식을 사용하여 일반화 능력을 향상시키고 설정 오버헤드를 줄입니다.

실험 결과

연구 질문

RQ1메타학습을 사용하여 주어진 데이터셋에 최적의 AutoML 시스템 설정(예: 모델 선택 및 예산 할당 전략)을 자동으로 선택할 수 있는가?
RQ2연속 절반화와 메타학습 기반 설정 선택 전략을 조합하면 고정 또는 수동으로 조정된 전략 대비 엄격한 시간 제약 조건 하에서 성능이 향상되는가?
RQ3Auto-sklearn 2.0은 파이프라인 검색뿐만 아니라 AutoML 시스템 자체의 하이퍼파rameter까지 자동화함으로써 얼마나 핸즈프리 운영을 달성할 수 있는가?
RQ4Auto-sklearn 1.0 및 기타 선도적인 AutoML 프레임워크와 비교해 Auto-sklearn 2.0의 예측 성능 및 효율성은 어떠한가?
RQ5제안된 메타학습 접근 방식은 명시적인 메타특성을 사용하지 않고도 다양한 데이터셋 간에 일반화 가능한가?

주요 결과

Auto-sklearn 2.0은 시간 제약 조건 하에서 39개의 기준 데이터셋에서 Auto-sklearn 1.0 대비 상대 오차를 최대 4.5배까지 감소시킵니다.
시스템은 10분 만에 Auto-sklearn 1.0이 60분이 걸려 달성하는 성능을 달성하며, 높은 효율성 향상을 입증합니다.
핵심 구성 요소인 PoSH Auto-sklearn는 연속 절반화를 통해 자원을 더 효과적으로 할당함으로써 Auto-sklearn 1.0의 전체 예산 설정보다 뛰어난 성능을 보입니다.
메타학습 기반의 설정 선택 전략은 각 데이터셋에 최적의 설정(예: 홀드아웃 대비 교차검증, 예산 전략)을 자동으로 선택함으로써 성능 향상에 기여합니다.
Auto-sklearn 2.0은 39개의 기준 데이터셋에서 최신 기술 수준의 성능을 달성하며, 엄격한 시간 제약 조건 하에서 다른 유명한 AutoML 프레임워크를 능가합니다.
메타특성 없는 메타학습 접근 방식은 수동 특성 공학이 필요 없이 강력하고 일반화 가능한 설정 선택을 가능하게 합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.