QUICK REVIEW

[논문 리뷰] Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes

Roman Novak, Lechao Xiao|arXiv (Cornell University)|2018. 10. 11.

Gaussian Processes and Bayesian Inference인용 수 169

한 줄 요약

본 논문은 채널 수가 많은 심층 CNN이 가우시안 프로세스로 수렴함을 보이고, 풀링 여부에 관계없이 CNN에 대한 NN-GP 등가성을 확장하며, 계산 불가능한 경우에 대해 대응하는 커널을 추정하기 위한 몬테카를로 방법을 제시한다.

ABSTRACT

There is a previously identified equivalence between wide fully connected neural networks (FCNs) and Gaussian processes (GPs). This equivalence enables, for instance, test set predictions that would have resulted from a fully Bayesian, infinitely wide trained FCN to be computed without ever instantiating the FCN, but by instead evaluating the corresponding GP. In this work, we derive an analogous equivalence for multi-layer convolutional neural networks (CNNs) both with and without pooling layers, and achieve state of the art results on CIFAR10 for GPs without trainable kernels. We also introduce a Monte Carlo method to estimate the GP corresponding to a given neural network architecture, even in cases where the analytic form has too many terms to be computationally feasible. Surprisingly, in the absence of pooling layers, the GPs corresponding to CNNs with and without weight sharing are identical. As a consequence, translation equivariance, beneficial in finite channel CNNs trained with stochastic gradient descent (SGD), is guaranteed to play no role in the Bayesian treatment of the infinite channel limit - a qualitative difference between the two regimes that is not present in the FCN case. We confirm experimentally, that while in some scenarios the performance of SGD-trained finite CNNs approaches that of the corresponding GPs as the channel count increases, with careful tuning SGD-trained CNNs can significantly outperform their corresponding GPs, suggesting advantages from SGD training compared to fully Bayesian parameter estimation.

연구 동기 및 목표

무한 채널 한계에서 심층 CNN이 인코딩하는 함수에 대한 사전 분포를 이해하도록 동기를 부여한다.
광범위한 조건에서 풀링 여부에 관계없이 CNN에 대한 이론적 NN-GP 등가를 확립한다.
무한 폭 한계에서 풀링, 가중치 공유, 그리고 평행이동 불변성의 역할을 정량화한다.
해석적 형태가 불가능한 아키텍처에 대해 CNN-GP 커널을 계산하거나 근사하는 실용적 방법을 제공한다.

제안 방법

CNN에서 전 활성화가 이전 활성화에 대해 가우시안이며 공분산은 선형 변환 A(K)으로 주어진다는 것을 도출한다.
채널 수가 증가함에 따라 활성화 공분산 K^l가 결정적이 되어 C∘A 매핑에 의해 나타남을 보인다.
초기 커널 K^0에 대해 (C∘A)를 반복하여 얻은 커널 K_infty^L로의 분포 수렴을 보인다.
풀링이 없는 CNN은 무한 채널 한계에서 지역적으로 연결된 네트워크의 GP와 동일한 NN-GP 커널을 갖는다고 보인다.
CNN-GP 출력이 GP 커널로 변환되도록 벡터화 및 투사 읽기(transformation readouts)를 설명하고, 정확한 형태의 K_infty^L을 포함한다.
해석적 형식이 구하기 어려운 경우 몬테카를로 방법을 통해 NN-GP 커널을 추정하는 MC-GP 커널 추정 방법을 도입한다.

실험 결과

연구 질문

RQ1무한 채널 한계에서 깊은 CNN이 가우시안 프로세스에 대응하는가?
RQ2풀링이 있는 CNN과 없는 CNN이 무한 채널 한계에서 차이가 있는가?
RQ3해석적 형태가 너무 복잡한 CNN 아키텍처의 GP 커널을 어떻게 계산하거나 근사할 수 있는가?
RQ4가중치 공유와 평행 이동 등 베이지안 무한 폭 CNN 커널에 무엇이 영향을 미치는가?
RQ5읽기(readout) 전략(벡터화나 투사)이 일반적인 CNN 분류기에서의 GP 커널을 도출하는가?

주요 결과

채널 수가 많은 CNN은 NN-GP 동작으로 수렴하여 함수에 대한 가우시안 프로세스 사전(prior)을 제공한다.
풀링이 없는 경우 CNN-GP는 국소적으로 연결된 네트워크 GP와 일치하므로, 이 경우 풀링과 등가변환은 무한 채널 효과가 없음을 시사한다.
평행 이동 등가성은 무한 폭의 베이지안 처리에 영향을 주지 않아 CNN과 FCN 간의 차이를 무한 채널 한계에서 구분한다.
닫힌 형태의 해석적 커널이 불가능할 때 몬테카를로 방법을 통해 CNN-GP 커널을 추정할 수 있어 풀링 구조의 실용적 커널 계산이 가능하다.
유한 폭 CNN이 SGD로 학습될 경우 일부 상황에서 해당 CNN-GP보다 성능이 더 좋을 수 있어 무한 폭 베이지안 관점의 이점 외의 이점을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.