QUICK REVIEW

[논문 리뷰] Probabilistic Matrix Factorization for Automated Machine Learning

Nicolò Fusi, Rishit Sheth|arXiv (Cornell University)|2017. 05. 15.

Machine Learning and Data Classification참고 문헌 20인용 수 64

한 줄 요약

논문은 AutoML을 확률적 행렬 인수분해 문제로 형식화하고, 데이터 세트 간 파이프라인 성능을 예측하기 위해 가우시안 프로세스 잠재 변수 모델을 사용하여 파이프라인의 Bayesian-최적화 기반 탐색을 안내한다.

ABSTRACT

In order to achieve state-of-the-art performance, modern machine learning techniques require careful data pre-processing and hyperparameter tuning. Moreover, given the ever increasing number of machine learning models being developed, model selection is becoming increasingly important. Automating the selection and tuning of machine learning pipelines consisting of data pre-processing methods and machine learning models, has long been one of the goals of the machine learning community. In this paper, we tackle this meta-learning task by combining ideas from collaborative filtering and Bayesian optimization. Using probabilistic matrix factorization techniques and acquisition functions from Bayesian optimization, we exploit experiments performed in hundreds of different datasets to guide the exploration of the space of possible pipelines. In our experiments, we show that our approach quickly identifies high-performing pipelines across a wide range of datasets, significantly outperforming the current state-of-the-art.

연구 동기 및 목표

데이터 전처리 및 모델 선택을 포함한 ML 파이프라인의 선택 및 튜닝을 자동화한다.
교차 데이터셋 실험 데이터를 활용하여 새로운 데이터셋에서의 파이프라인 성능을 예측한다.
파이프라인의 고차원 혼합(연속/이산/범주형) 공간을 파이프라인의 인스턴스화를 통해 다룬다.
협업 필터링을 Bayesian 최적화와 통합하여 파이프라인 탐색을 안내한다.

제안 방법

확률적 행렬 인수분해를 사용하여 파이프라인-데이터셋 성능 매트릭스 Y를 모델링한다: Y ≈ XW.
파이프라인 성능의 비선형성을 포착하기 위해 비선형 매핑 f_d(x)에 가우시안 프로세스 사전분포를 둔다.
잠재 함수의 매끄러움을 모델링하기 위해 GP 사전분포에 ARD가 있는 제곱지수 커널을 사용한다.
GP 우도에서 주변화하고 X, θ, σ^2에 대해 확률적 경사 업데이트를 수행하여 누락 데이터를 처리한다.
새로운 데이터셋에 대한 예측을 GP 회귀 공식으로 계산하는데 C_d = K(X_e(d), X_e(d)) + σ^2 I 이다.
다음으로 평가할 파이프라인을 선택하기 위해 기대 개선(EI) 등 획득 함수를 사용한다.

실험 결과

연구 질문

RQ1데이터셋 간 성능을 파이프라인의 저차원 잠재 공간으로 포착하여 새로운 데이터셋의 결과를 예측할 수 있는가?
RQ2파이프라인 평가를 확률적 행렬 인수분해 작업으로 처리하는 것이 AutoML 파이프라인 선택을 기준선보다 개선하는가?
RQ3Bayesian 최적화의 획득 함수가 이산적/인스턴스화된 파이프라인 공간의 탐색을 효과적으로 안내할 수 있는가?
RQ4파이프라인-데이터셋 성능 매트릭스에서 누락된 평가에 대한 접근 방식의 견고성은 어느 정도인가?
RQ5충분한 데이터가 있을 때 명시적 파이프라인 메타데이터를 포함하는 것이 필요한가?

주요 결과

PMF 기반 AutoML은 반복 횟수가 증가함에 따라 89개의 보류 데이터세트에서 평균 순위 최상위를 지속적으로 달성한다.
이 방법은 보류 데이터셋에서 평균 순위와 최적 파이프라인과의 간격 모두에서 auto-sklearn 및 random-search 기준선보다 우수하다.
행렬 항목의 90%가 누락되더라도 접근법은 견고하며 여전히 경쟁자보다 우수하다.
잠재 임베딩(차원수 20)은 파이프라인 전반의 모델 구조와 하이퍼파라미터를 효과적으로 포착한다.
충분한 실험 데이터가 있을 때 파이프라인 메타데이터를 포함하는 것은 성능을 향상시키지 못하며 모델은 Y만으로 학습한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.