Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Functions: When Is Deep Better Than Shallow

H. N. Mhaskar, Qianli Liao|arXiv (Cornell University)|2016. 03. 03.
Domain Adaptation and Few-Shot Learning참고 문헌 25인용 수 105
한 줄 요약

이 논문은 심층(계층적) 네트워크가 얕은 네트워크와 동일한 정확도로 구성적 함수들을 근사할 수 있지만 학습 파라미터 수가 지수적으로 더 적고 VC 차원이 더 작아 Bengio의 깊이 추측에 대한 답을 제시한다.

ABSTRACT

While the universal approximation property holds both for hierarchical and shallow networks, we prove that deep (hierarchical) networks can approximate the class of compositional functions with the same accuracy as shallow networks but with exponentially lower number of training parameters as well as VC-dimension. This theorem settles an old conjecture by Bengio on the role of depth in networks. We then define a general class of scalable, shift-invariant algorithms to show a simple and natural set of requirements that justify deep convolutional networks.

연구 동기 및 목표

  • 깊이가 얕은 네트워크에 비해 언제 우위를 제공하는지 질문에 동기를 부여한다.
  • 구성적 함수를 근사하기 위해 얕은 네트워크와 깊은 아키텍처를 정량적으로 비교한다.
  • 깊은 네트워크에 대해 파라미터 및 VC 차원 절감을 보여주는 근사 한계를 확립한다.
  • 바이너리 트리 구조와 Gaussian 네트워크를 통해 계층적 구성 구조를 실용적이고 확장 가능한 시프트 불변 딥 컨볼루션 네트워크와 연결한다.
  • 보편 근사성을 깊이를 통해 바이너리 트리 모델과 Gaussian 네트워크로 연결하는 프레임워크를 제공한다.

제안 방법

  • deepp 네트워크를 ridge-function 유닛의 이진 트리 계층으로 모델링한다.
  • 얕은 네트워크 S_n 와 심층 네트 D_n의 근사력을 대응하는 매끄러운 클래스의 함수들에 대해 비교한다.
  • 근사 속도 증명: dist(f, S_n) = O(n^{-r/d}) 인 f in W_{r,d}^{NN} 및 dist(f, D_n) = O(n^{-r/2}) 인 f in W_{H,r,d}^{NN}.
  • Gaussian 네트워크에 대한 분석 확장 및 함수 공간 W_{r,d}, K-기능 기반 규범 K_{r,d}(f,δ), 및 γ-매끄러운 클래스 W_{\,\u001d}를 정의한다.
  • 얕은 네트워크와 이진 트리 심층 네트워크에 대한 VC-차원 한계를 도출하고 이를 펫-샤터링(Fat-Shattering) 차원과 연결한다.

실험 결과

연구 질문

  • RQ1깊이가 구성적 구조를 가진 함수들을 근사하는 데 있어 정량적 이점은 언제, 왜 발생하는가?
  • RQ2얕은 네트워크와 깊은 네트워크에 대한 근사 속도 및 파라미터 복잡도는 매끄러움 가정하에서 어떻게 스케일링되는가?
  • RQ3계층적 구조와 시프트 불변성(컨볼루션 네트워크와 같이)은 확장 가능한 알고리즘에 자연스러운가를 이론적으로 정당화할 수 있는가?
  • RQ4깊은 계층적 구조에 대한 VC-차원 영향은 얕은 네트워크에 비해 어떠한가?
  • RQ5가우시안 네트워크도 유사한 가정 하에서 깊이 관련 개선을 보이는가?

주요 결과

  • 깊은 네트워크는 구성적 함수들에 대해 얕은 네트워크와 근사 정확도에서 일치하되 파라미터 수는 기하급수적으로 감소한다.
  • 일반 매끄러운 함수의 경우 얕은 네트워크는 정확도 ε를 달성하기 위해 O(ε^{-d/r}) 개의 파라미터가 필요하지만 구성적 구조를 모사하는 깊은 네트워크는 O(ε^{-2/r}) 파라미터만 필요하다.
  • 정리 정리: 같은 매끄러움 제약 하에서 깊고 계층적인 구조의 근사 오차 감소가 얕은 구조보다 더 빠르게 나타난다.
  • 깊은 이진 트리 네트워크의 VC-차원 한계가 얕은 네트워크에 비해 더 엄격하여 복잡도가 감소함을 반영한다.
  • 일반 프레임워크는 확장 가능하고 시프트 불변인 깊은 컨볼루션 네트워크가 이미지 같은 구성적이고 다스케일 데이터를 위한 자연스러운 선택임을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.