[논문 리뷰] Benefits of depth in neural networks
논문은 깊이 기반의 이점을 입증한다: 얕은 네트워크의 지수적 증가 없이 근사될 수 없는 다소 규모의 깊은 네트워크가 존재하며, 반다항 대수적 게이트와 ReLU 기반 네트워크를 사용한다.
For any positive integer $k$, there exist neural networks with $Θ(k^3)$ layers, $Θ(1)$ nodes per layer, and $Θ(1)$ distinct parameters which can not be approximated by networks with $\mathcal{O}(k)$ layers unless they are exponentially large --- they must possess $Ω(2^k)$ nodes. This result is proved here for a class of nodes termed "semi-algebraic gates" which includes the common choices of ReLU, maximum, indicator, and piecewise polynomial functions, therefore establishing benefits of depth against not just standard networks with ReLU gates, but also convolutional networks with ReLU and maximization gates, sum-product networks, and boosted decision trees (in this last case with a stronger separation: $Ω(2^{k^3})$ total tree nodes are required).
연구 동기 및 목표
- 깊은 네트워크가 얕은 네트워크가 근사하기 어려운 매우 진동하는 함수를 표현할 수 있음을 입증한다.
- 반다항 대수적 게이트를 사용하여 진동 기반의 개수가 깊은 네트워크와 얕은 네트워크를 구분하는 방식을 보인다.
- 합성곱 신경망(CNN), 합-곱 네트워크(SPN), 부스팅 결정 트리 같은 아키텍처에 깊이 계층화 통찰을 확장한다.
제안 방법
- ReLU 게이트를 사용하여 근사하는 데 많은 층이 필요한 특정 대상 함수를 구성한다.
- 일반 활성화 함수(ReLU, 최대값, 조각 다항식 등)를 포괄하도록 반다항 대수적 게이트를 정의하고 분석한다.
- 진동(교차) 카운트를 사용해 깊이가 함수의 복잡도와 근사 한계와 어떻게 연관되는지 설명한다.
- 레이어의 합성과 추가에서의 진동의 상한을 증명하여 깊이 분리를 이끈다.
- 제한된 크기의 얕은 네트워크로는 깊은 타깃을 근사할 수 없음을 보이기 위해 카운팅/패킹 주장을 활용한다.
실험 결과
연구 질문
- RQ1깊은 신경망이 얕은 네트워크로 지수 크기 없이 근사할 수 없는 함수를 명시적으로 표현할 수 있는가?
- RQ2진동 증가와 계층의 합성 대 추가가 아키텍처 전반의 깊이 분리에 어떻게 기여하는가?
- RQ3깊이에 기반한 구분이 반다항 네트워크 및 CNN, 합-곱 네트워크(SPN), 부스팅 결정 트리와 같은 아키텍처로 확장되는가?
주요 결과
- 2k^3+8 계층, 3k^3+12 총 노드, 4+d 개의 서로 다른 매개변수를 갖는 네트워크가 존재하며, O(k) 계층 및 준지수노드 수를 가진 네트워크로는 L1 오차 1/64 이내로 근사할 수 없다.
- 깊은 네트워크가 얕은 네트워크보다 기하급수적으로 더 많은 진동을 생성할 수 있어, 매우 진동하는 대상 함수가 얕은 근사에 저항하게 만든다.
- 깊이 분리는 ReLU 기반의 CNN, 최대 게이트 CNN, 부스팅 결정 트리 등을 포함한 반다항 게이트 네트워크에도 성립하며, 더 강한 노드 수 요구사항(Ω(2^{k^3}) 총 노드)하에서이다.
- 동반 결과는 반다항 네트워크의 VC 차원을 한정된 매개변수로 가진 깊은 네트워크가 대부분의 임의 라벨링을 잘 근사하지 못한다는 것을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.