Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Convolutional Networks as shallow Gaussian Processes

Adrià Garriga-Alonso, Carl Edward Rasmussen|arXiv (Cornell University)|2018. 08. 16.
Gaussian Processes and Bayesian Inference참고 문헌 25인용 수 106
한 줄 요약

이 논문은 CNN(ResNets 포함)이 무한 개의 컨볼루션 필터를 가지면 파생된 효율적인 커널을 가진 가우시안 프로세스(GP)와 동등하다고 보인다; 이 ConvNet GP는 매개변수 CNN을 학습하지 않고도 MNIST에서 경쟁력 있는 결과를 달성한다.

ABSTRACT

We show that the output of a (residual) convolutional neural network (CNN) with an appropriate prior over the weights and biases is a Gaussian process (GP) in the limit of infinitely many convolutional filters, extending similar results for dense networks. For a CNN, the equivalent kernel can be computed exactly and, unlike "deep kernels", has very few parameters: only the hyperparameters of the original CNN. Further, we show that this kernel has two properties that allow it to be computed efficiently; the cost of evaluating the kernel for a pair of images is similar to a single forward pass through the original CNN with only one filter per layer. The kernel equivalent to a 32-layer ResNet obtains 0.84% classification error on MNIST, a new record for GPs with a comparable number of parameters.

연구 동기 및 목표

  • 안전이 중요한 환경에서 CNN에 대한 불확실성 추정 및 강건한 베이지안 추론의 필요성을 제시한다.
  • 무한한 필터를 갖는 심층 CNN과 ResNet이 가우시안 프로세스로 수렴한다는 것을 입증한다.
  • 대각 공분산과 패치 단위 구조를 활용하는 ConvNet GP를 위한 효율적인 커널을 도출한다.
  • MNIST에서 GP 기반 결과로 경쟁력 있거나 최첨단 성능을 보이는 실험적 성과를 제시한다.

제안 방법

  • 레이어당 가우시안 가중치와 바이어스를 갖는 2D 컨볼루션 네트워크 사전 분포를 정의한다.
  • 필터 수가 무한대로 갈 때 다변량 중심극한정리를 계층 전반에 적용하여 GP 동작을 보인다.
  • 네트워크를 통해 대각 공분산만 전파하여 계산적으로 효율적인 커널을 도출한다(패치 단위 분산).
  • 커널 계산을 위해 일반적인 비선형성(예: ReLU, erf)에 대한 폐쇄형 공분산 업데이트를 제공한다.
  • 건너뛰기 연결이 있어도 GP 동작이 보존됨을 보여 커널을 잔여 CNN에 확장한다.
  • 다른 GP 베이스라인과 비교하여 ConvNet GP, Residual CNN GP, ResNet GP의 MNIST 실험을 수행한다.

실험 결과

연구 질문

  • RQ1무한 필터 한계에서 CNN 또는 ResNet 아키텍처가 정확히 가우시안 프로세스로 표현될 수 있는가?
  • RQ2CNN 기반 GP에 대해 번역 불변성 및 구조를 보존하는 효율적인 커널은 어떻게 계산할 수 있는가?
  • RQ3이전 GP 접근법에 비해 MNIST에서 CNN/ResNet GP 커널의 실험적 성능은 어떠한가?
  • RQ4잔여 연결이 GP 특성을 보존하고 이미지 작업에서 커널 기반 성능을 향상시키는가?

주요 결과

Method#samplesValidation errorTest error
NNGP (Lee et al. 2017)≈ 2501.21%
Convolutional GP (van der Wilk et al. 2017)SGD1.17%
Deep Conv. GP (Kumar et al. 2018)SGD1.34%
ConvNet GP270.71%1.03%
Residual CNN GP270.71%0.93%
ResNet GP0.84%
GP + parametric deep kernel (Bradshaw et al., 2017)SGD0.60%
ResNet (Chen et al., 2018)0.41%
  • 적절한 가중치/바이어스 사전으로 설정된 CNN(잔여 버전 포함)의 출력은 무한 필터 한계에서 GP로 수렴한다.
  • CNN에 대해 정확하고 효율적으로 계산 가능한 커널을 도출할 수 있으며, 이는 오로지 원래 CNN 하이퍼파라미터만 필요로 한다.
  • 커널 평가 비용은 각 층에 한 개의 필터를 가진 해당 CNN의 단일 순전파와 비슷하다.
  • 32층 ResNet GP가 MNIST에서 0.84% 테스트 오류를 달성하여 매개변수 수가 비슷한 비매개적 GP 방법의 새 기록을 세웠다.
  • 커널 기반 CNN이 이전의 비매개 GP 접근법보다 MNIST에서 더 나은 성능을 보인다.
  • 잔여 CNN GP 및 ResNet GP가 NNGP 및 기타 합성 GP 기준선에 비해 강한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.