QUICK REVIEW

[논문 리뷰] Bayesian Convolutional Neural Networks with Many Channels are Gaussian Processes.

Roman Novak, Lechao Xiao|arXiv (Cornell University)|2018. 10. 11.

Gaussian Processes and Bayesian Inference인용 수 13

한 줄 요약

이 논문은 채널 수가 많은 베이지안 컨volution 신경망(Bayesian CNNs)이 무한한 채널 수에서 가우시안 프로세스(Gaussian processes, GPs)로 수렴함을 입증하며, 네트워크 학습 없이도 정확한 GP 추론이 가능하다고 밝힌다. 분석적 형태가 계산에 어려운 경우에도 이를 추정할 수 있는 몬테카를로 방법을 제안하였고, 놀랍게도 가중치 공유(weight sharing)가 무한한 채널 수에서의 GP에 영향을 주지 않는다는 점을 발견하여, 유한한 SGD로 학습된 네트워크와의 핵심적인 차이를 드러낸다.

ABSTRACT

There is a previously identified equivalence between wide fully connected neural networks (FCNs) and Gaussian processes (GPs). This equivalence enables, for instance, test set predictions that would have resulted from a fully Bayesian, infinitely wide trained FCN to be computed without ever instantiating the FCN, but by instead evaluating the corresponding GP. In this work, we derive an analogous equivalence for multi-layer convolutional neural networks (CNNs) both with and without pooling layers, and achieve state of the art results on CIFAR10 for GPs without trainable kernels. We also introduce a Monte Carlo method to estimate the GP corresponding to a given neural network architecture, even in cases where the analytic form has too many terms to be computationally feasible. Surprisingly, in the absence of pooling layers, the GPs corresponding to CNNs with and without weight sharing are identical. As a consequence, translation equivariance, beneficial in finite channel CNNs trained with stochastic gradient descent (SGD), is guaranteed to play no role in the Bayesian treatment of the infinite channel limit - a qualitative difference between the two regimes that is not present in the FCN case. We confirm experimentally, that while in some scenarios the performance of SGD-trained finite CNNs approaches that of the corresponding GPs as the channel count increases, with careful tuning SGD-trained CNNs can significantly outperform their corresponding GPs, suggesting advantages from SGD training compared to fully Bayesian parameter estimation.

연구 동기 및 목표

많은 채널을 가진 베이지안 CNN과 가우시안 프로세스 사이의 등가성을 확립하여, 기존의 완전히 연결된 신경망(Fully-connected networks, FCNs)과 GP의 등가성 관계를 컨볼루션 아키텍처로 확장한다.
해석적 형태가 너무 복잡하여 직접 계산이 어려운 경우에도, 주어진 CNN 아키텍처에 대응하는 GP를 계산 가능한 방법으로 추정하는 방법을 개발한다.
베이지안 CNN의 무한한 채널 수 근처에서 가중치 공유와 이동 불변성(translation equivariance)의 역할을 조사하며, 이를 유한한 SGD로 학습된 모델과 대비시킨다.
SGD로 학습된 유한한 CNN과 그에 대응하는 베이지안 무한 채널 GP 간의 성능 격차를 평가한다.

제안 방법

무한한 채널 수 근처에서 풀링 레이어가 있는지 여부에 따라 다층 CNN의 GP 기능 형태를 유도한다.
해석적 표현이 너무 많은 항을 포함하여 직접 계산이 어려운 경우, GP 커널을 추정하기 위한 몬테카를로 샘플링 방법을 도입한다.
풀링이 없는 CNN의 경우, 가중치 공유 여부에 관계없이 GP가 동일하다는 것을 보여주며, 이는 무한한 극한에서 이동 불변성이 영향을 주지 않음을 시사한다.
유도된 GP를 사용하여 신경망 학습 없이도 테스트 세트 예측을 수행하며, GP의 닫힌 형태 추론을 활용한다.
GP 커널을 사용하여 학습 가능한 커널 없이도 아키텍처 사전 정보만으로 CIFAR10에서 최신 성능을 달성한다.

실험 결과

연구 질문

RQ1많은 채널을 가진 컨volution 신경망이 무한한 채널 수에서 가우시안 프로세스로 수렴하는가? 이는 기존의 넓은 완전히 연결된 네트워크와 GP의 등가성 관계가 컨볼루션 아키텍처로도 확장되는가?
RQ2해석적 커널 표현이 계산적으로 불가능한 경우, 주어진 CNN 아키텍처에 대응하는 GP는 어떻게 추정할 수 있는가?
RQ3베이지안 CNN의 무한한 채널 수 근처에서 가중치 공유 또는 이동 불변성은 GP에 영향을 미치는가?
RQ4SGD로 학습된 유한한 CNN의 성능은 그에 대응하는 베이지안 무한 채널 GP와 비교해 볼 때 어떻게 다를까?

주요 결과

많은 채널을 가진 베이지안 CNN은 가우시안 프로세스로 수렴하며, 이는 네트워크 학습 없이도 정확한 테스트 세트 예측이 가능하다는 것을 의미한다.
풀링이 없는 CNN의 경우, 가중치 공유 여부에 관계없이 동일한 GP가 도출되며, 이는 무한한 채널 수 근처에서 이동 불변성이 영향을 주지 않음을 시사한다.
제안된 몬테카를로 방법은 해석적 커널이 너무 복잡하여 직접 평가가 어려운 경우에도 CNN에 대한 GP 추론을 가능하게 한다.
GP 기반 접근법은 학습 가능한 커널 없이도 CIFAR10에서 최신 성능을 달성하였으며, 이는 이전의 GP 기반 방법보다 뛰어난 성능을 보였다.
비록 동일한 GP로 수렴하더라도, 정교하게 튜닝된 SGD로 학습된 유한한 CNN은 그에 대응하는 베이지안 GP보다 유의미하게 뛰어난 성능을 보였으며, 이는 SGD 최적화의 이점이 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.