[논문 리뷰] Tensor Programs I: Wide Feedforward or Recurrent Neural Networks of Any Architecture are Gaussian Processes
본 논문은 표준 아키텍처의 넓은 피드포워드 및 순환 신경망이 가우시안 프로세스로 수렴한다는 것을 증명하고, 계산을 표현하기 위한 NETSOR를 도입하며 다양한 아키텍처에 대한 GP 커널을 도출한다.
Wide neural networks with random weights and biases are Gaussian processes, as originally observed by Neal (1995) and more recently by Lee et al. (2018) and Matthews et al. (2018) for deep fully-connected networks, as well as by Novak et al. (2019) and Garriga-Alonso et al. (2019) for deep convolutional networks. We show that this Neural Network-Gaussian Process correspondence surprisingly extends to all modern feedforward or recurrent neural networks composed of multilayer perceptron, RNNs (e.g. LSTMs, GRUs), (nD or graph) convolution, pooling, skip connection, attention, batch normalization, and/or layer normalization. More generally, we introduce a language for expressing neural network computations, and our result encompasses all such expressible neural networks. This work serves as a tutorial on the *tensor programs* technique formulated in Yang (2019) and elucidates the Gaussian Process results obtained there. We provide open-source implementations of the Gaussian Process kernels of simple RNN, GRU, transformer, and batchnorm+ReLU network at github.com/thegregyang/GP4A.
연구 동기 및 목표
- MLP와 간단한 CNN을 넘는 넓고 무작위로 초기화된 네트워크에 대한 NN-GP 대응을 동기 부여하고 형식화한다.
- 신경망 계산을 통합된 방식으로 표현하기 위한 언어로 NETSOR를 도입한다.
- 넓이 무한대 극한에서 NETSOR-표현 아키텍처에 대한 일반적인 가우시안 프로세스 수렴 결과를 입증한다.
- 간단한 RNN, GRU, 트랜스포머, 배치정규화 네트워크 등 몇 가지 아키텍처에 대한 커널 계산 및 오픈 소스 구현을 제공한다.
- 행렬 전치(transpose) 및 Neural Tangent Kernel 분석으로의 향후 확장의 토대를 마련한다.
제안 방법
- RNN을 다루기 위해 가변 차원 출력의 가우시안 프로세스를 정의한다.
- 표준 신경망 연산을 표현하기 위한 NETSOR 및 NETSOR+ 언어를 개발한다.
- 제5.4 정리(NETSOR Master Theorem)를 확립하여 제어된 비선형성에 대해 너비(width)→∞에서 거의 확실하게 가우시안 프로세스로의 수렴을 제공한다.
- NETSOR 인코딩으로부터 GP 커널을 계산하는 Corollary 5.5를 도출한다.
- simple RNN, GRU, transformer, 및 batchnorm+ReLU 같은 아키텍처에 대한 커널 계산과 경험적 검증을 제공한다.
- 무한 너비 한계에 대응하는 오픈 소스 커널 구현을 제공한다.
실험 결과
연구 질문
- RQ1표준 아키텍처의 넓은 신경망(RNN, LSTM, GRU, CNN, 주의(attention) 기반 모델, 배치정규화/LN 변형 포함)이 가우시안 프로세스로 수렴하는가?
- RQ2단일 언어(NETSOR)가 이들 아키텍처를 표현하고 일반적인 GP 수렴 결과를 가능하게 할 수 있는가?
- RQ3다양한 아키텍처의 GP 커 kernels을 NETSOR 인코딩에서 어떻게 계산할 수 있는가?
- RQ4아키텍처 전반에서 유한 너비 네트워크에 대한 무한 너비 GP 예측의 경험적 타당성은 무엇인가?
- RQ5Attention 및 정규화 계층과 같은 현대 구성요소로 GP 대응을 확장하는 이론적/실용적 시사점은 무엇인가?
주요 결과
- 표준 아키텍처의 넓은 피드포워드 및 순환 네트워크는 가중치와 바이어스가 무작위일 때 넓이가 무한대로 갈수록 가우시안 프로세스로 수렴한다.
- NETSOR 프레임워크는 신경망 계산의 표현을 통합하고 RNN, GRU, 트랜스포머, 스킵 연결, 풀링, 배치정규화(BN), 레이어노름(LN) 등을 포함한 아키텍처에 대한 GP 수렴 결과를 가능하게 한다.
- NETSOR Master Theorem은 평균 μ와 공분산 Σ를 갖는 가우시안 입력을 통해 극한 분포와 GP 커널을 계산하는 방법을 제공한다.
- 결과들에 따르면 네트워크 출력은 프로그램의 구조와 φ에 의해 결정되는 커널 K를 갖는 결합 가우시안으로 된다고 한다.
- 실험적 시연은 유한 너비 네트워크(예: 너비 1000)가 RNN, GRU, 트랜스포머 및 BN+ReLU 네트워크 전반에서 무한 너비 GP 예측에 가까운 공분산 구조와 결합 분포를 보임을 보여준다.
- 여러 아키텍처용 GP 커널의 오픈 소스 구현이 github.com/thegregyang/GP4A에 제공되었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.