[논문 리뷰] Automated Machine Learning on Big Data using Stochastic Algorithm Tuning
이 논문은 대규모 데이터에서 머신러닝 하이퍼파rameter 튜닝을 자동화하기 위해 희소 가우시안 프로세스와 니스트롬 근사법을 사용하는 확장 가능한 스토케스틱 베이지안 최적화 프레임워크인 Stoat을 제안한다. 데이터 서브셋에서 성능을 평가하여 효율적이고 노이즈가 있으며 확장 가능한 최적화를 가능하게 하며, 소비자용 하드웨어에서 1시간 이내에 실세계 시계열 데이터에서 최신 기술 수준의 성능을 달성한다.
We introduce a means of automating machine learning (ML) for big data tasks, by performing scalable stochastic Bayesian optimisation of ML algorithm parameters and hyper-parameters. More often than not, the critical tuning of ML algorithm parameters has relied on domain expertise from experts, along with laborious hand-tuning, brute search or lengthy sampling runs. Against this background, Bayesian optimisation is finding increasing use in automating parameter tuning, making ML algorithms accessible even to non-experts. However, the state of the art in Bayesian optimisation is incapable of scaling to the large number of evaluations of algorithm performance required to fit realistic models to complex, big data. We here describe a stochastic, sparse, Bayesian optimisation strategy to solve this problem, using many thousands of noisy evaluations of algorithm performance on subsets of data in order to effectively train algorithms for big data. We provide a comprehensive benchmarking of possible sparsification strategies for Bayesian optimisation, concluding that a Nystrom approximation offers the best scaling and performance for real tasks. Our proposed algorithm demonstrates substantial improvement over the state of the art in tuning the parameters of a Gaussian Process time series prediction task on real, big data.
연구 동기 및 목표
- 전체 데이터의 우도 평가가 계산적으로 불가능한 대규모 데이터에서 머신러닝 하이퍼파rameter 튜닝을 자동화하는 데 도전한다.
- 높은 평가 빈도에서 표준 베이지안 최적화의 O(N³) 스케일링 장벽을 해결한다.
- 하위집합 샘플링으로 인해 흔히 발생하는 노이즈가 있는 스토케스틱 평가에 대해 기울기가 필요 없이 강건한 최적화를 가능하게 한다.
- 실세계의 복잡하고 다모달 최적화 문제에서 빠르게 수렴하는 실용적이고 확장 가능한 프레임워크를 개발한다.
- 스토케스틱 평가를 데이터 서브셋에서 수행할 수 있으며, 원칙적인 베이지안 최적화 프레임워크 내에서 노이즈 있는 관측값으로 효과적으로 모델링할 수 있음을 입증한다.
제안 방법
- 희소 가우시안 프로세스와 니스트롬 근사를 사용하여 O(N³) 추론 비용을 O(Nm²)로 감소시킨다. 여기서 m ≪ N은 유도점의 수이다.
- 무작위 데이터 서브셋에서의 성능 평가를 잠재 목표 함수의 노이즈 있는 관측값으로 간주하여 스토케스틱 최적화를 가능하게 한다.
- 각 반복에서 불확실성을 표현하고 할당 함수 선택을 안내하기 위해 확률적 대체 모델(희소 GP)을 사용한다.
- 탐색과 이용의 균형을 맞추기 위해 할당 함수(예: 기대 개선도)를 적용한다.
- 초기 수렴 속도를 높이고 낭비된 탐색 단계를 줄이기 위해 설계 공간을 사전에 소볼 수열을 사용해 샘플링한다.
- 불확실성과 기대 개선도를 기반으로 동적으로 새로운 평가 점을 선택하는 순차적 모델 기반 최적화 루프에 프레임워크를 통합한다.
실험 결과
연구 질문
- RQ1스토케스틱 베이지안 최적화와 희소 가우시안 프로세스는 대규모 머신러닝 작업에서 요구하는 수천 건의 노이즈 있는 평가에 대해 확장 가능한가?
- RQ2실세계의 ML 하이퍼파rameter 튜닝에서 스케일러빌리티와 예측 성능 측면에서 니스트롬 근사는 다른 희소화 전략보다 어떻게 비교되는가?
- RQ3데이터 서브셋에서의 스토케스틱 평가는 다모달이고 고차원적인 공간에서 전역 최적해를 찾기 위해 원칙적인 베이지안 최적화 프레임워크 내에서 효과적으로 노이즈 있는 관측값으로 모델링될 수 있는가?
- RQ4제안된 방법은 실세계 대규모 데이터셋에서 수렴 속도와 최종 모델 성능 측면에서 기존 최신 기술 수준의 접근법을 초월하는가?
- RQ5높은 예측 정확도를 유지하면서 비용이 많이 드는 전체 데이터 우도 평가의 필요성을 어느 정도 줄일 수 있는가?
주요 결과
- Stoat은 실세계 주거용 전기 사용량 데이터에서 더블-페리오딕 커널을 사용하여 테스트 로그우도 -7.25를 달성했으며, [27]에서 제시한 단일-페리오딕 모델(로그우도: -7.40)과 비페리오딕 GP(-9.22)를 초월했다.
- 멀티모달 성격을 지닌 검색 공간에도 불구하고, 소비자용 랩탑에서 1시간 이내에 382일 주기(약 1년)와 1.5일 주기(일일 주기)로 수렴했다.
- 사전 샘플링 단계(600개의 소볼 점)는 단지 5분이 소요되었으며, 낭비된 탐색 단계의 수를 크게 줄여 수렴 속도를 가속화했다.
- 베이지안 최적화 루프의 각 반복은 20~30초 사이에서 이루어졌으며, 평가 수가 2,500개로 증가함에 따라 뚜렷한 속도 저하가 없었다.
- 희소 GP 대체 모델을 사용하여 데이터 서브셋에서 유래한 노이즈가 있는 스토케스틱 우도 평가를 효과적으로 모델링함으로써 노이즈에 대한 강건성과 확장성을 입증했다.
- 니스트롬 근사는 테스트된 희소화 전략들 중에서 계산 효율성과 예측 성능 사이의 최적의 트레이드오���을 제공하는 것으로 밝혀졌다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.