QUICK REVIEW

[논문 리뷰] Deep Convolutional Networks as shallow Gaussian Processes

Adrià Garriga-Alonso, Carl Edward Rasmussen|arXiv (Cornell University)|2018. 08. 16.

Gaussian Processes and Bayesian Inference참고 문헌 25인용 수 106

한 줄 요약

이 논문은 CNN(ResNets 포함)이 무한 개의 컨볼루션 필터를 가지면 파생된 효율적인 커널을 가진 가우시안 프로세스(GP)와 동등하다고 보인다; 이 ConvNet GP는 매개변수 CNN을 학습하지 않고도 MNIST에서 경쟁력 있는 결과를 달성한다.

ABSTRACT

We show that the output of a (residual) convolutional neural network (CNN) with an appropriate prior over the weights and biases is a Gaussian process (GP) in the limit of infinitely many convolutional filters, extending similar results for dense networks. For a CNN, the equivalent kernel can be computed exactly and, unlike "deep kernels", has very few parameters: only the hyperparameters of the original CNN. Further, we show that this kernel has two properties that allow it to be computed efficiently; the cost of evaluating the kernel for a pair of images is similar to a single forward pass through the original CNN with only one filter per layer. The kernel equivalent to a 32-layer ResNet obtains 0.84% classification error on MNIST, a new record for GPs with a comparable number of parameters.

연구 동기 및 목표

안전이 중요한 환경에서 CNN에 대한 불확실성 추정 및 강건한 베이지안 추론의 필요성을 제시한다.
무한한 필터를 갖는 심층 CNN과 ResNet이 가우시안 프로세스로 수렴한다는 것을 입증한다.
대각 공분산과 패치 단위 구조를 활용하는 ConvNet GP를 위한 효율적인 커널을 도출한다.
MNIST에서 GP 기반 결과로 경쟁력 있거나 최첨단 성능을 보이는 실험적 성과를 제시한다.

제안 방법

레이어당 가우시안 가중치와 바이어스를 갖는 2D 컨볼루션 네트워크 사전 분포를 정의한다.
필터 수가 무한대로 갈 때 다변량 중심극한정리를 계층 전반에 적용하여 GP 동작을 보인다.
네트워크를 통해 대각 공분산만 전파하여 계산적으로 효율적인 커널을 도출한다(패치 단위 분산).
커널 계산을 위해 일반적인 비선형성(예: ReLU, erf)에 대한 폐쇄형 공분산 업데이트를 제공한다.
건너뛰기 연결이 있어도 GP 동작이 보존됨을 보여 커널을 잔여 CNN에 확장한다.
다른 GP 베이스라인과 비교하여 ConvNet GP, Residual CNN GP, ResNet GP의 MNIST 실험을 수행한다.

실험 결과

연구 질문

RQ1무한 필터 한계에서 CNN 또는 ResNet 아키텍처가 정확히 가우시안 프로세스로 표현될 수 있는가?
RQ2CNN 기반 GP에 대해 번역 불변성 및 구조를 보존하는 효율적인 커널은 어떻게 계산할 수 있는가?
RQ3이전 GP 접근법에 비해 MNIST에서 CNN/ResNet GP 커널의 실험적 성능은 어떠한가?
RQ4잔여 연결이 GP 특성을 보존하고 이미지 작업에서 커널 기반 성능을 향상시키는가?

주요 결과

Method	#samples	Validation error	Test error
NNGP (Lee et al. 2017)	≈ 250	–	1.21%
Convolutional GP (van der Wilk et al. 2017)	SGD	–	1.17%
Deep Conv. GP (Kumar et al. 2018)	SGD	–	1.34%
ConvNet GP	27	0.71%	1.03%
Residual CNN GP	27	0.71%	0.93%
ResNet GP	–	–	0.84%
GP + parametric deep kernel (Bradshaw et al., 2017)	SGD	–	0.60%
ResNet (Chen et al., 2018)	–	–	0.41%

적절한 가중치/바이어스 사전으로 설정된 CNN(잔여 버전 포함)의 출력은 무한 필터 한계에서 GP로 수렴한다.
CNN에 대해 정확하고 효율적으로 계산 가능한 커널을 도출할 수 있으며, 이는 오로지 원래 CNN 하이퍼파라미터만 필요로 한다.
커널 평가 비용은 각 층에 한 개의 필터를 가진 해당 CNN의 단일 순전파와 비슷하다.
32층 ResNet GP가 MNIST에서 0.84% 테스트 오류를 달성하여 매개변수 수가 비슷한 비매개적 GP 방법의 새 기록을 세웠다.
커널 기반 CNN이 이전의 비매개 GP 접근법보다 MNIST에서 더 나은 성능을 보인다.
잔여 CNN GP 및 ResNet GP가 NNGP 및 기타 합성 GP 기준선에 비해 강한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.