[논문 리뷰] Which Neural Net Architectures Give Rise To Exploding and Vanishing Gradients?
이 논문은 무작위로 초기화된 완전히 연결된 ReLU 네트워크에서 그래디언트 변동을 엄밀히 분석하고, 입력-출력 야코비안 항의 분산이 은닉 층 너비의 역수 합의 아키텍처 의존적인 합에 따라 기하급수적으로 증가함을 보여준다. 이는 유한 너비 결과와 어닐드/퀜치드 EVGP 정의를 제공한다.
We give a rigorous analysis of the statistical behavior of gradients in a randomly initialized fully connected network N with ReLU activations. Our results show that the empirical variance of the squares of the entries in the input-output Jacobian of N is exponential in a simple architecture-dependent constant beta, given by the sum of the reciprocals of the hidden layer widths. When beta is large, the gradients computed by N at initialization vary wildly. Our approach complements the mean field theory analysis of random networks. From this point of view, we rigorously compute finite width corrections to the statistics of gradients at the edge of chaos.
연구 동기 및 목표
- 깊은 완전 연결 ReLU 네트워크에서 EVGP 문제의 동인을 제시하고 학습 다이나믹스를 아키텍처와 연결한다.
- Jacobian 모멘트에 대한 유한 깊이/너비 공식 도출 및 핵심 아키텍처 통계 식별.
- 어닐드(Annealed) 및 퀜치드(Quenched) EVGP를 통해 EVGP가 언제 발생하는지 특징짓고 이를 층 너비 분포와 연계한다.
- 초기화 시 EVGP를 완화하기 위한 아키텍처 설계에 대한 지침을 제시한다.
제안 방법
- 무작위 가중치와 바이어스를 가진 완전 연결 ReLU 넷에서 입력-출력 야코비안 항들의 공동 짝수 모멘트에 대한 정확한 공식 도출(유한 깊이/너비).
- 은닉 층의 1/n_j 합으로 베타가 정의될 때 그래디언트 제곱의 경험적 분산이 기하급수적으로 증가함을 보인다.
- 정확한 분산 스케일링으로 초기화하였을 때 EVGP 발생 여부가 아키텍처에 의해서만 결정된다는 것을 증명(정의 1).
- 어닐드 및 퀜치드 EVGP 정의를 제시하고, sum_j 1/n_j < ∞ 이면 EVGP를 피할 수 있음과의 동등성을 증명한다.
- 혼돈의 끝에서의 유한 너비 보정치를 계산하고 평균장 이론과의 관계를 밝힌다.
실험 결과
연구 질문
- RQ1ReLU 네트워크에서 초기화 시 EVGP에 이르는 깊이와 은닉 층 너비의 조합은 무엇인가?
- RQ2유한 너비와 깊이가 입력-출력 야코비안의 통계에 어떠한 영향을 미치는가?
- RQ3EVGP는 정확한 가중치/바이어스 분포에 의존하는가 아니면 Proper initialization 아래에서 아키텍처에 의존하는가?
- RQ4초기화 시 그래디언트 분산을 최소화하는 아키텍처 선택은 무엇인가?
- RQ5유한 너비 네트워크에서 어닐드와 퀜치드 EVGP 개념은 서로 얼마나 연관되어 있는가?
주요 결과
- 입력-출력 야코비안 항의 제곱의 경험적 분산은 베타 = sum_j 1/n_j에 기하급수적으로 의존한다.
- EVGP는 베타가 큰 경우에 발생하며, 가중치 분포보다는 아키텍처(적절한 분산 스케일링 하에서)에 의해 분산 증가가 좌우된다.
- sum_j 1/n_j < ∞ 이면 두 가지 어닐드 및 퀜치드 관점에서 EVGP를 피할 수 있으며, 그렇지 않으면 EVGP가 기대된다.
- 고정된 입력에 대해 E[Z_pq^2] = 1/n_0이고, 더 높은 모멘트는 합(sum_j 1/n_j)에 기하급수적으로 비례하며, 모멘트는 경로 기반 조합론에 의해 주어진다(Theorem 3).
- 평균장 타입의 부등식에서 등호가 성립하는 경우는 은닉 너비가 같을 때로, 아키텍처 대칭성이 안정성에 유리함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.