[논문 리뷰] Deep Convolutional Networks as shallow Gaussian Processes
이 논문은 CNN(ResNets 포함)이 무한 개의 컨볼루션 필터를 가지면 파생된 효율적인 커널을 가진 가우시안 프로세스(GP)와 동등하다고 보인다; 이 ConvNet GP는 매개변수 CNN을 학습하지 않고도 MNIST에서 경쟁력 있는 결과를 달성한다.
We show that the output of a (residual) convolutional neural network (CNN) with an appropriate prior over the weights and biases is a Gaussian process (GP) in the limit of infinitely many convolutional filters, extending similar results for dense networks. For a CNN, the equivalent kernel can be computed exactly and, unlike "deep kernels", has very few parameters: only the hyperparameters of the original CNN. Further, we show that this kernel has two properties that allow it to be computed efficiently; the cost of evaluating the kernel for a pair of images is similar to a single forward pass through the original CNN with only one filter per layer. The kernel equivalent to a 32-layer ResNet obtains 0.84% classification error on MNIST, a new record for GPs with a comparable number of parameters.
연구 동기 및 목표
- 안전이 중요한 환경에서 CNN에 대한 불확실성 추정 및 강건한 베이지안 추론의 필요성을 제시한다.
- 무한한 필터를 갖는 심층 CNN과 ResNet이 가우시안 프로세스로 수렴한다는 것을 입증한다.
- 대각 공분산과 패치 단위 구조를 활용하는 ConvNet GP를 위한 효율적인 커널을 도출한다.
- MNIST에서 GP 기반 결과로 경쟁력 있거나 최첨단 성능을 보이는 실험적 성과를 제시한다.
제안 방법
- 레이어당 가우시안 가중치와 바이어스를 갖는 2D 컨볼루션 네트워크 사전 분포를 정의한다.
- 필터 수가 무한대로 갈 때 다변량 중심극한정리를 계층 전반에 적용하여 GP 동작을 보인다.
- 네트워크를 통해 대각 공분산만 전파하여 계산적으로 효율적인 커널을 도출한다(패치 단위 분산).
- 커널 계산을 위해 일반적인 비선형성(예: ReLU, erf)에 대한 폐쇄형 공분산 업데이트를 제공한다.
- 건너뛰기 연결이 있어도 GP 동작이 보존됨을 보여 커널을 잔여 CNN에 확장한다.
- 다른 GP 베이스라인과 비교하여 ConvNet GP, Residual CNN GP, ResNet GP의 MNIST 실험을 수행한다.
실험 결과
연구 질문
- RQ1무한 필터 한계에서 CNN 또는 ResNet 아키텍처가 정확히 가우시안 프로세스로 표현될 수 있는가?
- RQ2CNN 기반 GP에 대해 번역 불변성 및 구조를 보존하는 효율적인 커널은 어떻게 계산할 수 있는가?
- RQ3이전 GP 접근법에 비해 MNIST에서 CNN/ResNet GP 커널의 실험적 성능은 어떠한가?
- RQ4잔여 연결이 GP 특성을 보존하고 이미지 작업에서 커널 기반 성능을 향상시키는가?
주요 결과
| Method | #samples | Validation error | Test error |
|---|---|---|---|
| NNGP (Lee et al. 2017) | ≈ 250 | – | 1.21% |
| Convolutional GP (van der Wilk et al. 2017) | SGD | – | 1.17% |
| Deep Conv. GP (Kumar et al. 2018) | SGD | – | 1.34% |
| ConvNet GP | 27 | 0.71% | 1.03% |
| Residual CNN GP | 27 | 0.71% | 0.93% |
| ResNet GP | – | – | 0.84% |
| GP + parametric deep kernel (Bradshaw et al., 2017) | SGD | – | 0.60% |
| ResNet (Chen et al., 2018) | – | – | 0.41% |
- 적절한 가중치/바이어스 사전으로 설정된 CNN(잔여 버전 포함)의 출력은 무한 필터 한계에서 GP로 수렴한다.
- CNN에 대해 정확하고 효율적으로 계산 가능한 커널을 도출할 수 있으며, 이는 오로지 원래 CNN 하이퍼파라미터만 필요로 한다.
- 커널 평가 비용은 각 층에 한 개의 필터를 가진 해당 CNN의 단일 순전파와 비슷하다.
- 32층 ResNet GP가 MNIST에서 0.84% 테스트 오류를 달성하여 매개변수 수가 비슷한 비매개적 GP 방법의 새 기록을 세웠다.
- 커널 기반 CNN이 이전의 비매개 GP 접근법보다 MNIST에서 더 나은 성능을 보인다.
- 잔여 CNN GP 및 ResNet GP가 NNGP 및 기타 합성 GP 기준선에 비해 강한 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.