[논문 리뷰] Deep Neural Networks as Gaussian Processes
이 논문은 무한히 넓은 깊은 신경망과 가우시안 프로세스 간의 정확한 등가성을 증명하고, MNIST와 CIFAR-10 등의 회귀 작업에서 베이지안 추론을 가능하게 하는 해당 GP 커널의 확장 가능한 계산 방법을 제공한다.
It has long been known that a single-layer fully-connected neural network with an i.i.d. prior over its parameters is equivalent to a Gaussian process (GP), in the limit of infinite network width. This correspondence enables exact Bayesian inference for infinite width neural networks on regression tasks by means of evaluating the corresponding GP. Recently, kernel functions which mimic multi-layer random neural networks have been developed, but only outside of a Bayesian framework. As such, previous work has not identified that these kernels can be used as covariance functions for GPs and allow fully Bayesian prediction with a deep neural network. In this work, we derive the exact equivalence between infinitely wide deep networks and GPs. We further develop a computationally efficient pipeline to compute the covariance function for these GPs. We then use the resulting GPs to perform Bayesian inference for wide deep neural networks on MNIST and CIFAR-10. We observe that trained neural network accuracy approaches that of the corresponding GP with increasing layer width, and that the GP uncertainty is strongly correlated with trained network prediction error. We further find that test performance increases as finite-width trained networks are made wider and more similar to a GP, and thus that GP predictions typically outperform those of finite-width networks. Finally we connect the performance of these GPs to the recent theory of signal propagation in random neural networks.
연구 동기 및 목표
- 깊고 무한히 넓은 신경망과 가우시안 프로세스(GPs) 사이의 정확한 대응을 확립한다.
- 깊은 네트워크 GP 전 층에 걸친 재귀적이고 결정론적인 커널 계산을 도출한다.
- 결과 GP를 이용한 베이지안 추론이 표준 벤치마크에서 한정된 너비의 신경망과 비교해 일치하거나 우수할 수 있음을 보인다.
- Neural Network GP(NNGP)를 MNIST와 CIFAR-10에 적용하고 SGD로 학습된 네트와 비교하여 실용적 가능성을 입증한다.
- GP 성능과 무작위 네트워크의 신호 전파 이론 간의 연결점을 보여준다.
제안 방법
- 중심극한값 정리에 의해 계층별 무한 폭 한계를 이용해 NNGP 커널을 도출한다.
- 재귀적 커널 업데이트 K^l(x, x') = σ_b^2 + σ_w^2 F_φ(K^{l-1}(x, x'), K^{l-1}(x, x), K^{l-1}(x', x')), 여기서 F_φ는 비선형성 φ에 의존한다.
- 일부 φ에 대한 해석적 형태(예: ReLU용 arccosine 커널)과 일반 φ에 대한 수치 스킴을 제공하여 F_φ를 계산한다.
- 복잡도를 줄이기 위한 전처리 및 이차 보간(bilinear-interpolation) 스킴을 갖춘 K^L를 빠르게 구현한다.
- 유도된 커널을 이용한 가우시안 프로세스 회귀로 회귀 대상에 대한 정확한 베이지안 추론과 불확실량 정량화를 수행한다.
- 커널 동작을 깊은 신호 전파 이론 및 무작위 네트워크의 위상 다이어그램과 연관시킨다.
실험 결과
연구 질문
- RQ1깊고 무한히 넓은 신경망이 정확히 계산 가능한 공분산 커널을 가진 가우시안 프로세스로 정확히 표현될 수 있는가?
- RQ2깊이 L와 비선형성 φ의 선택이 GP 커널과 이미지 분류 작업에서의 예측 성능에 어떤 영향을 미치는가?
- RQ3NNGP 커널로 얻은 GP 후방 예측이 MNIST와 CIFAR-10 같은 데이터셋에서 SGD로 학습된 유한 너비의 네트워크와 경쟁적이거나 우수한 결과를 제공하는가?
- RQ4GP 불확실성이 테스트 데이터의 실제 예측 오차와 어떻게 상관관계가 있는가?
- RQ5NNGP 성능과 무작위 신경망의 신호 전파 이론의 최근 이론과 연결고리가 있는가?
주요 결과
- NNGPs often outperform finite-width networks trained with SGD on MNIST and CIFAR-10 under comparable settings.
- As network width increases, trained NNs begin to resemble the NNGP in performance, indicating a close link between SGD-trained nets and Bayesian inference in wide regimes.
- GP uncertainty estimates are highly correlated with actual prediction error on test data.
- Performance peaks align with regions predicted by deep signal propagation phase diagrams (ordered/chaotic phases) for different nonlinearities.
- GPs provide explicit, principled uncertainty measures for predictions, which is challenging for standard neural nets.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.