QUICK REVIEW

[논문 리뷰] Autostacker: A Compositional Evolutionary Learning System

Boyuan Chen, Harvey Wu|arXiv (Cornell University)|2018. 03. 02.

Machine Learning and Data Classification참고 문헌 24인용 수 31

한 줄 요약

Autostacker는 도메인 지식이나 사전 처리 없이도 고성능 머신러닝 파이프라인을 자동으로 발견할 수 있도록 계층적 스태킹 아키텍처와 진화 알고리즘을 사용하는 AutoML 시스템이다. 15개 데이터셋 전반에서 정확도와 시간 효율성 면에서 최신 기술 수준 또는 경쟁 가능한 성능을 달성하며, 평균적으로 랜덤 포레스트, TPOT, AutoSklearn를 능가한다.

ABSTRACT

We introduce an automatic machine learning (AutoML) modeling architecture called Autostacker, which combines an innovative hierarchical stacking architecture and an Evolutionary Algorithm (EA) to perform efficient parameter search. Neither prior domain knowledge about the data nor feature preprocessing is needed. Using EA, Autostacker quickly evolves candidate pipelines with high predictive accuracy. These pipelines can be used as is or as a starting point for human experts to build on. Autostacker finds innovative combinations and structures of machine learning models, rather than selecting a single model and optimizing its hyperparameters. Compared with other AutoML systems on fifteen datasets, Autostacker achieves state-of-art or competitive performance both in terms of test accuracy and time cost.

연구 동기 및 목표

수동적인 특성 공학이나 도메인 전문 지식 없이도 종단 간 머신러닝 파이프라인 설계 과정(모델 선택 및 하이퍼파라미터 최적화 포함)을 자동화하는 것.
모든 스태킹 계층에서 원본 데이터를 유지하면서 합성 특성을 추가함으로써 소규모 및 희소 데이터셋에서의 일반화 성능을 향상시키는 것.
단일 모델 최적화 프레임워크보다 더 넓은 모델 조합의 탐색 공간을 제공하기 위해 다양한 머신러닝 프리미티브를 자유롭게 스태킹할 수 있도록 허용함으로써, 더 넓은 탐색 범위 확보.
모델 아키텍처, 하이퍼파라미터, 구성 요소 설정을 조정 가능한 변수로 간주하는 진화 알고리즘을 활용하여 파이프라인 탐색 속도를 가속화하는 것.
다양한 벤치마크 데이터셋에서 기존 AutoML 시스템을 능가하는 강력하고 빠르며 정확한 기준선을 제공함으로써 전문가 및 실무자에게 유용한 기반 제공.

제안 방법

모든 이전 계층의 모델 예측값과 원본 특성을 모두 연결하여 처리하는 계층적 스태킹 아키텍처를 사용한다.
모델 수, 계층 수, 모델 유형, 개별 모델 하이퍼파라미터 등을 포함한 광범위한 하이퍼파라미터 공간을 탐색하기 위해 진화 알고리즘(EA)을 활용한다.
전체 파이프라인을 최적화 대상으로 삼아 단일 모델 최적화가 아닌 복잡한 조합적 모델 구조를 탐색할 수 있도록 한다.
각 계층에서 모델의 예측 결과로 생성된 합성 특성을 원본 데이터셋과 연결함으로써, 연속적인 특성 공학을 통한 깊이 있는 표현 학습을 가능하게 한다.
선택, 교차, 변이를 통해 파opul레이션을 진화시키며, 적합도는 검증 정확도로 평가한다.
사용자가 최대 계층 수와 계층당 노드 수를 지정하거나 Autostacker가 이를 하이퍼파라미터로 자동 조정하도록 허용하는 동적 설정 기능을 지원한다.

실험 결과

연구 질문

RQ1수동적인 특성 공학이나 도메인 특화 지식에 의존하지 않고도 진화 알고리즘이 고성능의 조합적 머신러닝 파이프라인을 효과적으로 탐색할 수 있는가?
RQ2원본 데이터를 유지하면서 점진적으로 합성 특성을 추가하는 계층적 스태킹 아키텍처가 소규모 및 희소 데이터셋에서 성능 향상에 기여하는 방식은 무엇인가?
RQ3TPOT 및 AutoSklearn와 같은 기존 프레임워크에 비해 AutoML 시스템이 예측 정확도와 계산 효율성 면에서 어느 정도 뛰어나게 성능을 내는가?
RQ4다양한 머신러닝 프리미티브의 조합 가능성을 허용하는 모델의 유연성은 다양한 데이터셋에서 파이프라인 성능과 일반화 능력에 어떤 영향을 미치는가?
RQ5베이지안 최적화 기반 AutoML 시스템과 비교했을 때, 진화적 탐색 전략은 속도와 정확도 측면에서 어떤 차이를 보이는가?

주요 결과

Autostacker는 15개 모든 데이터셋에서 랜덤 포레스트 기준선 대비 100% 높은 테스트 정확도를 달성했으며, 15개 중 12개 데이터셋에서 TPOT보다 뛰어난 성능을 보였다.
15개 데이터셋 중 9개에서 Autostacker가 AutoSklearn를 능가했으며, 특히 heart-h 및 wine-recognition 데이터셋에서는 AutoSklearn가 기준선 성능을 초과하지 못했다.
TPOT 대비 시간 비용을 최대 6배까지 감소시켰으며, dis(3772개 샘플)와 같이 더 큰 데이터셋에서 높은 테스트 정확도를 기록하며 뛰어난 성능을 보였다.
TPOT와 AutoSklearn가 랜덤 포레스트 기준선을 향상시키지 못한 데이터셋에서도 Autostacker는 강력한 성능을 유지하며 안정성을 입증했다.
3轮 실험 동안 각 라운드 상위 10개 파이프라인의 평균 테스트 결과 30건을 기준으로, 정확도와 속도 면에서 모든 기준선을 초월했다.
성공에도 불구하고, AutoSklearn는 세 가지 데이터셋(Hill_Valley, allhypo, vehicle)에서 Autostacker를 능가했으며, 이는 특정 대용량 데이터셋 환경에서의 잠재적 우수성에 기여할 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.