Skip to main content
QUICK REVIEW

[논문 리뷰] An Open Source AutoML Benchmark

Pieter Gijsbers, Erin LeDell|arXiv (Cornell University)|2019. 07. 01.
Machine Learning and Data Classification참고 문헌 10인용 수 48
한 줄 요약

이 논문은 오픈 소스이자 확장 가능한 AutoML 벤치마크 프레임워크를 제시하고 이를 사용해 39개 데이터셋에 걸쳐 네 가지 AutoML 시스템을 비교하며, 단일 도구가 우위를 차지하지 않는 점과 현재 AutoML 방법으로도 일부 데이터셋이 여전히 도전적임을 강조한다.

ABSTRACT

In recent years, an active field of research has developed around automated machine learning (AutoML). Unfortunately, comparing different AutoML systems is hard and often done incorrectly. We introduce an open, ongoing, and extensible benchmark framework which follows best practices and avoids common mistakes. The framework is open-source, uses public datasets and has a website with up-to-date results. We use the framework to conduct a thorough comparison of 4 AutoML systems across 39 datasets and analyze the results.

연구 동기 및 목표

  • 공정하고 확장 가능한 AutoML 도구 벤치마킹을 촉진하여 작고 정적인 데이터셋 모음에 과적합되는 일을 방지한다.
  • 최신 AutoML 비교를 위한 개방형 프레임워크와 웹사이트를 제공한다.
  • 다양한 크기와 특징 유형을 가진 다양한 데이터셋에서 여러 AutoML 시스템을 평가한다.
  • 향후 연구를 안내하기 위해 현재 AutoML 접근 방식의 강점과 약점에 대해 커뮤니티에 정보를 제공한다.

제안 방법

  • 최신 결과를 위한 공개 데이터셋과 함께 개방적이고 확장 가능한 벤치마크 프레임워크 및 동반 웹사이트를 개발한다.
  • 크기, 특징 유형, 누락 값이 다른 39개의 분류 데이터셋에 벤치마크를 기록한다.
  • 이진 분류에는 AUROC, 다중 클래스에는 로그 손실을 사용하는 표준화된 지표와 10-fold 교차검증을 사용한다.
  • 재현 가능한 비교를 가능하게 하려면 자원 제약(AWS m5.2xlarge 또는 동등한)을 고정한다.
  • 일반적인 사용을 반영하기 위해 기본 하이퍼파라미터 값과 미리 정의된 자원 예산으로 AutoML 도구를 평가하고, 상수 예측기나 Random Forest 변형과 같은 기준선과 비교한다.

실험 결과

연구 질문

  • RQ1서로 다른 AutoML 시스템이 다양한 실제 분류 데이터셋에서 어떻게 비교되는가?
  • RQ2실용적 자원 예산하에서 AutoML 도구가 untuned 또는 tuned Random Forest와 같은 간단한 기준선보다 일관되게 더 잘 작동하는가?
  • RQ3데이터셋의 특성(예: 크기, 특징 유형, 클래스 불균형)이 AutoML 시스템의 상대적 성능에 어떤 영향을 미치는가?
  • RQ4더 긴 시간 예산 아래에서 AutoML 도구를 벤치마크할 때 과적합이나 메모리 관리 문제의 징후가 있는가?

주요 결과

  • 어떤 단일 AutoML 시스템도 모든 데이터셋과 작업에서 지속적으로 다른 시스템을 능가하지 못한다.
  • 일부 데이터셋은 프레임워크 간에 상당한 차이가 나타나지만, 다른 데이터셋은 튜닝된 Random Forest에 비해 거의 미미한 이득을 제공한다.
  • Auto-WEKA는 다중 클래스 문제에서 더 긴 시간 예산으로 실행할 때 과적합의 징후를 보인다.
  • 여러 데이터셋에서 모든 AutoML 도구가 Random Forest 기준선보다 성능이 모자라며, 특히 고차원 또는 다중 클래스 문제가 강한 경우 그렇다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.