QUICK REVIEW

[논문 리뷰] Dynamics of stochastic gradient descent for two-layer neural networks in the teacher-student setup

Sebastian Goldt, Madhu Advani|arXiv (Cornell University)|2019. 06. 18.

Stochastic Gradient Optimization Techniques인용 수 33

한 줄 요약

본 논문은 교사-학생 프레임워크에서 과-매개변수화된 두 계층 네트워크의 온라인 SGD 역학을 분석하고, 거시적 차원에서의 순서 매개변수에 대한 미분방정식(ODE)을 도출하며, 어느 계층이 학습되고 활성화 함수에 따라 일반화가 과-매개변수화에 얼마나 의존하는지 보여준다.

ABSTRACT

Deep neural networks achieve stellar generalisation even when they have enough parameters to easily fit all their training data. We study this phenomenon by analysing the dynamics and the performance of over-parameterised two-layer neural networks in the teacher-student setup, where one network, the student, is trained on data generated by another network, called the teacher. We show how the dynamics of stochastic gradient descent (SGD) is captured by a set of differential equations and prove that this description is asymptotically exact in the limit of large inputs. Using this framework, we calculate the final generalisation error of student networks that have more parameters than their teachers. We find that the final generalisation error of the student increases with network size when training only the first layer, but stays constant or even decreases with size when training both layers. We show that these different behaviours have their root in the different solutions SGD finds for different activation functions. Our results indicate that achieving good generalisation in neural networks goes beyond the properties of SGD alone and depends on the interplay of at least the algorithm, the model architecture, and the data set.

연구 동기 및 목표

실제로 왜 심하게 과-매개변수화된 네트워크가 일반화가 잘 되는지 동기를 부여하고 이해한다.
교사-학생 설정에서 온라인 SGD 다이나믹스의 엄밀한 거시적 설명(ODEs)을 개발한다.
첫 번째 계층만 학습될 때 과-매개변수화된 학생의 점근적 일반화 오차를 분석한다.
두 계층을 모두 학습시킬 때 일반화가 어떻게 달라지는지 분석하고 활성화 함수 의존적 행동을 식별한다.
ODE 프레임워크에 대한 해석적 및 수치적 검증을 SGD 시뮬레이션과 대조한다.

제안 방법

교사와 학생의 두 계층 네트워크로 i.i.d. 가우시안 입력으로 모델링한다.
교사-학생 및 학생 중첩을 포착하는 순서 매개변수 m = (R, Q, T, v*, v) 를 정의한다.
dR/dα, dQ/dα, dv/dα에 대한 결합된 ODE를 도출하고 이들이 m(α)로 닫히는 것을 보인다.
엄밀한 수렴 결과를 보인다: 큰 N 극한에서 SGD의 거시적 상태가 ODE의 고유 해를 따른다.
다양한 활성화 함수(sigmoidal, linear, ReLU) 및 학습 설정에 대해 점근적 일반화 오차 ε_g*를 계산한다.
해석적 예측을 SGD 시뮬레이션 및 유한 크기 실험으로 검증한다.

실험 결과

연구 질문

RQ1네트워크 크기가 커짐에 따라 교사-학생 두 계층 설정에서 온라인 SGD 다이나믹스가 어떻게 진화하는가?
RQ2첫 번째 계층만 학습될 때 과-매개변수화(K > M)가 최종 일반화 오차에 어떻게 영향을 미치는가?
RQ3두 계층을 학습시킬 때 점근적 일반화 오차가 어떻게 달라지고 서로 다른 활성화에 대해 SGD가 어떤 해로 수렴하는가?
RQ4활성화 함수가 SGD 다이나믹스의 고정점과 일반화 성능에서 어떤 역할을 하는가?
RQ5다양한 아키텍처와 데이터 레지임에서 ODE 프레임워크가 SGD 결과를 정확히 예측할 수 있는가?

주요 결과

Soft Committee Machines의 경우, 첫 번째 계층만 학습될 때 추가 은닉 단위 L의 수가 늘어나면 최종 일반화 오차가 증가한다.
ε_g*가 η, σ^2 및 L의 함수로 스케일링되며, 단일 계층 학습 구에서 더 큰 과매개변수화가 일반화 저하를 야기할 수 있음을 보인다.
두 계층 학습은 시그모이달 네트워크에서 다수의 학생 유닛이 특화되고 교사 출력을 효과적으로 평균화하는 노이즈 제거 해법으로 인해 일반화를 개선한다.
ReLU 및 linear 네트워크는 두 계층을 학습할 때 K가 커져도 ε_g*가 일정하게 나타나며, 이 경우 SGD 하에서 과-매개변수화의 이점이 덜 뚜렷함을 시사한다.
해석식 및 수치해석은 SGD의 암시적 규제화가 알고리즘, 아키텍처, 데이터에 결정적으로 의존하며 단지 SGD만으로는 아니라고 시사한다.
저자들은 공개 저장소에 ODE 적분기 및 실험을 포함한 재현 가능한 파이프라인을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.