QUICK REVIEW

[논문 리뷰] Conditional Neural Processes

Marta Garnelo, Dan Rosenbaum|arXiv (Cornell University)|2018. 07. 04.

Gaussian Processes and Bayesian Inference참고 문헌 30인용 수 59

한 줄 요약

Conditional Neural Processes (CNPs)은 관찰된 데이터에 조건화된 함수의 분포를 학습하는 신경망 기반 모델로, 적은 샷 적응, 확장 가능한 추론, 회귀, 분류 및 이미지 완성 전반에 걸친 다재다능성을 제공합니다. 이들은 명시적 베이지안 사전분포 없이 신경망의 유연성과 GP 유사한 조건화를 결합합니다.

ABSTRACT

Deep neural networks excel at function approximation, yet they are typically trained from scratch for each new function. On the other hand, Bayesian methods, such as Gaussian Processes (GPs), exploit prior knowledge to quickly infer the shape of a new function at test time. Yet GPs are computationally expensive, and it can be hard to design appropriate priors. In this paper we propose a family of neural models, Conditional Neural Processes (CNPs), that combine the benefits of both. CNPs are inspired by the flexibility of stochastic processes such as GPs, but are structured as neural networks and trained via gradient descent. CNPs make accurate predictions after observing only a handful of training data points, yet scale to complex functions and large datasets. We demonstrate the performance and versatility of the approach on a range of canonical machine learning tasks, including regression, classification and image completion.

연구 동기 및 목표

데이터 효율적 학습을 촉진하기 위해 신경망과 GP에서 영감을 받은 조건화를 결합한다.
관찰의 고정 크기 임베딩에 조건화를 거는 확장 가능하고 순열 불변적인 아키텍처를 도입한다.
회귀, 이미지 완성 및 원샷 분류에서 CNP를 시연하여 다재다능성과 효율성을 보여준다.
강점과 트레이드오프를 강조하기 위해 CNP를 Gaussian Processes 및 메타 학습 접근법과 비교한다.

제안 방법

관찰 O에 주어진 f(T)에 대한 분포를 모델링하는 조건부 확률 과정 Q_theta를 정의하며, O와 T에서의 순열 불변을 보장한다.
각 관찰 (x_i, y_i)를 r_i = h_theta(x_i, y_i)로 인코딩하고 합이 보장되는 교환적 연산(예: 평균)을 통해 고정 차원 r로 집계한다.
각 타깃 x에 대해 phi_x = g_theta(x, r)를 계산하여 조건부 출력 분포의 매개변수(예: 회귀의 경우 Gaussian 평균/분산, 분류의 경우 로짓)를 얻는다.
임의의 부분집합 O_N의 관찰로 주어진 타깃의 조건부 가능도를 최대화하고, θ에 대한 음의 조건부 로그 가능도를 최소화하여 훈련한다.
n개의 관찰로부터 m개의 타깃을 예측하는 테스트 시의 계산 복잡도를 O(n+m)으로 보장한다.

실험 결과

연구 질문

RQ1명시적 베이지안 사전 없이도 신경망 모델이 융통성 있는 데이터 중심의 함수 사전을 학습할 수 있는가?
RQ2순열 불변의 암모타이즈드(amortized) 아키텍처가 제한된 관찰로 새로운 입력에 대한 함수 값을 효율적으로 예측할 수 있는가?
RQ3CNP는 GP 기반 방법 및 메타학습 접근법과 비교했을 때 회귀, 분류 및 이미지 관련 작업에서 어떤 성능을 보이는가?
RQ4잠재 변수를 추가하면 확장 가능한 조건화를 유지하면서 다점 샘플링을 일관되게 수행할 수 있는가?
RQ5관찰의 양과 배열이 예측 정확도 및 불확실성 추정에 어떤 영향을 미치는가?

주요 결과

CNPs는 회귀 과제에서 소수의 관찰로도 정확한 예측을 달성하고 GP 유사한 불확실성에 근접할 수 있다.
이미지 완성(MNIST 및 CelebA)에서 CNPs는 합리적인 평균 및 불확실성 맵을 생성하고 다양한 관찰 패턴에 대해 여전히 유연하다.
CNPs는 맥락이 작을 때 kNN 및 GP보다 우수하고 맥락 점의 순서에 대한 강건성을 유지한다.
잠재 변수 확장은 일관된 샘플을 생성하고 관찰이 증가함에 따라 불확실성을 감소시킨다.
원샷 Omniglot 분류에서 CNPs는 일부 베이스라인보다 현저히 낮은 테스트 시간 복잡도(O(n+m))로 경쟁력 있는 정확도를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.