[논문 리뷰] SGD Learns the Conjugate Kernel Class of the Network
완전한 네트워크를 학습시키고 무작위 초기화 후 커널 다이내믹스와의 관계를 통해, SGD가 광범위한 심층 네트워크의 conjugate kernel space의 함수들을 다항 시간 안에 학습할 수 있음을 보여준다.
We show that the standard stochastic gradient decent (SGD) algorithm is guaranteed to learn, in polynomial time, a function that is competitive with the best function in the conjugate kernel space of the network, as defined in Daniely, Frostig and Singer. The result holds for log-depth networks from a rich family of architectures. To the best of our knowledge, it is the first polynomial-time guarantee for the standard neural network learning algorithm for networks of depth more that two. As corollaries, it follows that for neural networks of any depth between $2$ and $\log(n)$, SGD is guaranteed to learn, in polynomial time, constant degree polynomials with polynomially bounded coefficients. Likewise, it follows that SGD on large enough networks can learn any continuous function (not in polynomial time), complementing classical expressivity results.
연구 동기 및 목표
- 표준 SGD가 depth-2 아키텍처를 넘어서는 신경망에서 언제 성공하는지 동기를 부여하고 형식화한다.
- 무작위 초기화를 통해 신경망 학습과 a conjugate kernel framework를 연결한다.
- 광범위한 조건에서 SGD가 네트워크의 kernel space의 함수들을 학습하는 다항 시간 보장을 증명한다.
- 상수 차수 다항식의 효율적 학습과 충분한 네트워크 크기로 임의의 연속 함수 학습에 대한 결과를 보여준다.
제안 방법
- 복제와 출력 계층을 가진 computation skeletons로 신경망을 모델링한다.
- skeletons와 연관된 conjugate activations와 compositional kernels를 정의한다.
- Xavier 유사 무작위 초기화와 0으로 초기화된 예측 계층을 사용한 SGD를 분석한다.
- 다항 규모의 네트워크 크기, 학습률, 스텝 수일 때 SGD가 kernel space에서 거의 최적에 근접한 손실을 달성함을 증명한다.
- 커널 공간의 결과를 실제 함수 클래스(다항식, CNF/DNF, 연속 함수)로 번역하는 corollaries를 제공한다.
실험 결과
연구 질문
- RQ1깊은 아키텍처에서 SGD가 네트워크의 conjugate kernel space의 임의의 함수들을 다항 시간 내에 학습하는 보장을 제공하는가?
- RQ2네트워크의 깊이, 복제, 활성화의 한계가 커널 공간 목표에 대한 SGD의 수렴 보장에 어떤 영향을 미치는가?
- RQ3어떤 함수 클래스가 conjugate kernel 프레임워크를 통해 SGD에 의해 효율적으로 학습되는가(예: 다항식, 논리 공식, 연속 함수)?
주요 결과
- SGD가 conjugate kernel space에서 상수 차수 다항식을 다항 시간 내에 다항식적으로 한정된 계수를 가지는 경우 학습하는 것이 보장된다.
- SGD가 kernel class 내에서 특정 상수항/리터럴로 결합(Conjunctions), DNF/CNF를 다항 시간 내에 학습하는 것이 보장된다.
- 깊이가 log(n)까지인 네트워크의 경우, SGD는 conjugate kernel space의 함수들을 학습하며, 연속 함수와 같은 비다항 클래스도 포함된다(다항 시간일 필요는 없다).
- 커널 프레임워크 내에서 SGD가 연속 함수와 특정 PAC-학습 가능 함수 클래스들을 학습할 수 있음을 보여주는 corollaries가 있다.
- 결과는 로그 깊이와 합성곱 층의 수에 상수 조건을 가진 Fully connected 및 convolutional 네트워크로 확장된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.