Skip to main content
QUICK REVIEW

[논문 리뷰] Layered TPOT: Speeding up Tree-based Pipeline Optimization

Pieter Gijsbers, Joaquin Vanschoren|arXiv (Cornell University)|2018. 01. 18.
Evolutionary Algorithms and Applications참고 문헌 13인용 수 24
한 줄 요약

계층적 TPOT는 계층적 유전적 알고리즘을 사용하여 점차 증가하는 데이터 서브셋에서 후보 기계 학습 파이프라인을 평가함으로써 TPOT 내 파이프라인 최적화를 가속화한다. 이는 모델 품질을 희생시키지 않고도 런타임을 크게 단축시키며, 특히 대규모 데이터셋에서 200분 빠르게 유사하거나 더 나은 모델을 찾을 수 있다.

ABSTRACT

With the demand for machine learning increasing, so does the demand for tools which make it easier to use. Automated machine learning (AutoML) tools have been developed to address this need, such as the Tree-Based Pipeline Optimization Tool (TPOT) which uses genetic programming to build optimal pipelines. We introduce Layered TPOT, a modification to TPOT which aims to create pipelines equally good as the original, but in significantly less time. This approach evaluates candidate pipelines on increasingly large subsets of the data according to their fitness, using a modified evolutionary algorithm to allow for separate competition between pipelines trained on different sample sizes. Empirical evaluation shows that, on sufficiently large datasets, Layered TPOT indeed finds better models faster.

연구 동기 및 목표

  • TPOT에서 전체 데이터셋 파이프라인 평가의 높은 계산 비용을 해결함으로써 AutoML의 주요 병목 현상을 해결한다.
  • 특히 대규모 데이터셋에서 모델 성능을 훼손하지 않고 최적화된 파이프라인에 도달하는 데 걸리는 시간을 단축한다.
  • 계층적 평가를 통해 유망한 후보를 우선순위화함으로써 고성능 파이프라인에의 빠른 수렴을 가능하게 한다.
  • 대규모 기계 학습 워크플로우에서 TPOT의 실용성과 접근 가능성을 향상시킨다.
  • 계층적 유전적 설계가 최적화 효율성과 파이프라인 품질에 미치는 영향을 탐구한다.

제안 방법

  • 각 계층이 점차 증가하는 데이터 서브셋에서 파이프라인을 평가하는 계층적 유전적 프레임워크를 도입한다.
  • 다른 데이터 크기에서 훈련된 파이프라인 간 직접적인 적합도 비교를 방지하기 위해 수정된 유전적 선택 기법을 사용한다.
  • 각 계층 내 상대적 적합도 기반으로 높은 성능을 보인 파이프라인만 다음 계층으로 이전한다.
  • 각 계층 내에서 표준 유전적 프로그래밍 연산(변형, 교차)을 적용하며, 계층별로 데이터 샘플링 전략을 다르게 설정한다.
  • 계층별 세대 수와 인구 수를 정의하여 데이터 스케일에 따라 적응형 최적화를 가능하게 한다.
  • 작은 데이터 서브셋에서 강력한 성능을 입증한 개체만 다음 계층으로 이전되는 전이 메커니즘을 적용한다.

실험 결과

연구 질문

  • RQ1계층적 평가는 모델 품질을 저하시키지 않고 고성능 기계 학습 파이프라인을 찾는 데 필요한 시간을 줄일 수 있는가?
  • RQ2다양한 데이터셋에서 계층적 TPOT와 표준 TPOT의 속도 및 파이프라인 정확도 측면에서의 성능 비교는 어떻게 되는가?
  • RQ3계층의 세분성과 전이 전략이 최적화 효율성과 최종 파이프라인 품질에 어떤 영향을 미치는가?
  • RQ4특히 대규모 데이터셋에서 제한된 시간 예산 내에서 계층적 TPOT가 TPOT를 능가하는가?
  • RQ5높은 계층에서의 초깃값 설정, 예를 들어 인구 수와 세대 수 등의 하이퍼파rameter 설정이 속도와 성능 간의 트레이드오���에 어떤 영향을 미치는가?

주요 결과

  • 대규모 데이터셋에서 계층적 TPOT(LTPOT-16 포함)는 TPOT의 최고 성능과 유사하거나 이를 뛰어넘는 파이프라인을 찾지만, 최대 200분 빠르게 도달한다.
  • LTPOT가 TPOT의 최종 최고 성능과 유사한 파이프라인을 찾았을 경우, TPOT의 파이프라인은 그 시간대에 이미 0.2 AUROC 이상 낮은 성능을 보였다.
  • LTPOT-2는 TPOT와 유사한 속도로 유사한 파이프라인을 찾지만, LTPOT-16는 특히 작은 시간 예산 조건에서 더 빠른 수렴을 달성한다.
  • 18개 데이터셋과 9개 시드를 대상으로 한 162개 비교에서, LTPOT-16는 시간 t에 TPOT보다 AUROC 측면에서 대부분의 경우에서 승리한다.
  • LTPOT-16는 큰 시간 예산 조건에서는 경쟁력이 떨어지며, 장기간 실행에서 속도와 최종 성능 간의 트레이드오프를 보여준다.
  • 계층적 아키텍처는 다양한 하이퍼파rameter 튜닝이 가능하며, 향후 계층 전이, 인구 수, 선택 전략 최적화의 잠재력이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.