QUICK REVIEW

[논문 리뷰] Gaussian Processes: A Quick Introduction

Mark Ebden|arXiv (Cornell University)|2015. 05. 12.

Gaussian Processes and Bayesian Inference인용 수 97

한 줄 요약

이 논문은 회귀 및 분류에 대한 가우시안 프로세스(GPs)에 대한 간결한 소개를 제공하며, 공분산 함수와 베이지안 추론을 사용하여 비모수적 방식으로 함수를 모델링하는 방법을 설명한다. 잠재 함수에 대한 주변화를 통해 새로운 입력에 대한 예측 분포를 유도하며, 커널 행렬과 행렬 역행렬을 포함하는 닫힌 형태의 해를 통해 GP 회귀가 예측과 불확실성 추정치를 동시에 제공함을 보여준다.

ABSTRACT

A gentle introduction to Gaussian processes (GPs). The three parts of the document consider GPs for regression, classification, and dimensionality reduction.

연구 동기 및 목표

가우시안 프로세스를 비모수적 베이지안 접근법으로서 회귀 및 분류에 적용할 수 있음을 제시하기 위해.
GPs가 평균 함수와 공분산 함수를 사용하여 함수를 모델링하는 방식과 제곱 지수 커널을 표준 선택으로 삼는 방식을 설명하기 위해.
다변량 가우시안 프레임워크에서 조건부 확률을 사용하여 새로운 입력에 대한 예측 분포를 유도하기 위해.
소프트맥스 함수와 라플라스 근사를 사용하여 다중 클래스 분류로 프레임워크를 확장하기 위해.
강건한 추론을 위해 하이퍼파rameter 최적화와 커널 파라미터에 대한 모델 평균화의 중요성을 강조하기 위해.

제안 방법

관측 오차를 포함한 평균이 0이고 제곱 지수 공분산 함수 $ k(x,x') = \sigma_f^2 \exp\big(-\frac{(x-x')^2}{2l^2}\big) + \sigma_n^2 \delta(x,x') $ 를 갖는 가우시안 프로세스로 기저 함수 $ f(x) $ 를 모델링한다.
학습 출력 $ \mathbf{y} $ 와 테스트 예측 $ y_* $ 에 대한 결합 가우시안 분포를 표현한다: $ \begin{bmatrix}\mathbf{y} \\ y_*\end{bmatrix} \sim \mathcal{N}\big(\mathbf{0}, \begin{bmatrix}K & K_*^T \\ K_* & K_{**}\end{bmatrix}\big) $.
예측 분포 $ y_*|\mathbf{y} \sim \mathcal{N}(K_*K^{-1}\mathbf{y},~{} K_{**} - K_*K^{-1}K_*^T) $ 를 유도하며, 이는 평균 예측과 예측 분산을 모두 제공한다.
정확한 마진널 리크리어티 최적화가 불가능할 경우, 로그-마진널 리크리어티 최대화를 통해 하이퍼파ram터 최적화를 가능하게 하기 위해 라플라스 근사를 적용한다.
다중 클래스 분류로의 확장을 위해 다수의 잠재 함수를 모델링하고, 소프트맥스 연결 함수를 사용하며, 후행 분포를 라플라스 방법으로 근사한다.
다중 클래스 GPC의 근사 로그-마진널 리크리어티를 유도한다: $ p(\mathbf{y}|\mathbf{x},\boldsymbol{\theta}) = -\frac{1}{2}\hat{\mathbf{f}}^T K^{-1}\hat{\mathbf{f}} + \mathbf{y}^T \hat{\mathbf{f}} - \sum_i \log\big(\sum_c \exp\hat{f}_i^c\big) - \frac{1}{2}\log(|K||K^{-1}+W|) $.

실험 결과

연구 질문

RQ1비모수적 베이지안 방법인 가우시안 프로세스는 어떻게 회귀에서 예측과 불확실성 추정치를 동시에 제공할 수 있는가?
RQ2공분산 함수가 예측된 함수의 매끄럽기 정도와 상관관계 구조를 결정하는 데 어떤 역할을 하는가?
RQ3GP 회귀에서 예측 분포는 다변량 가우시안의 조건부 분포로부터 어떻게 유도되는가?
RQ4잠재 함수와 소프트맥스 변환을 사용하여 GP 분류를 다중 클래스 문제로 어떻게 확장할 수 있는가?
RQ5정확한 마진널 리크리어티 최대화가 불가능할 경우, 라플라스 근사는 하이퍼파ram터 최적화에서 어떤 역할을 하는가?

주요 결과

새로운 입력 $ x_* $ 에 대한 예측 평균은 $ \overline{y}_* = K_*K^{-1}\mathbf{y} $ 로 주어지며, 이는 커널 기반 가중치를 사용한 학습 출력의 가중 평균이다.
예측 분산은 $ \mathrm{var}(y_*) = K_{**} - K_*K^{-1}K_*^T $ 이며, $ x_* $ 가 학습 점에 가까워질수록 감소하여 신뢰도가 증가함을 반영한다.
그림 1의 예시에서 $ \sigma_n = 0.3 $, $ \sigma_f^2 = 1.0 $, $ l = 1.0 $ 일 때, $ x_* = 0.2 $ 에서의 예측값은 약 1.46이며 분산은 약 0.22이다.
마진널 리크리어티는 커널 하이퍼파ram터 $ \sigma_f $ 와 $ l $ 를 통해 모델 적합도와 복잡도의 균형을 이루며 $ p(\mathbf{y}|\mathbf{x},\boldsymbol{\theta}) $ 의 최대화를 통해 최적화된다.
다중 클래스 분류에서 잠재 함수의 후행 평균은 $ \hat{\mathbf{f}} = K(\mathbf{y} - \hat{\boldsymbol{\pi}}) $ 로 추정되며, 불확실성은 행렬 $ (K^{-1} + W)^{-1} $ 의 공분산 행렬로 기록된다.
다중 클래스 GPC의 로그-마진널 리크리어티에는 데이터에 대한 적합도, 잠재 변수의 로그-합-exp 항, 그리고 커널 행렬과 피셔 정보 행렬의 행렬식을 통한 복잡도 페널티 항이 포함된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.