QUICK REVIEW

[논문 리뷰] On the number of inference regions of deep feed forward networks with piece-wise linear activations

Razvan Pascanu, Guido Montúfar|arXiv (Cornell University)|2014. 01. 01.

Advanced Memory and Neural Computing인용 수 59

한 줄 요약

이 논문은 복합 기하학을 활용하여 ReLU 활성화를 갖는 깊이 있는 피드포워드 신경망의 표현 복잡도를 분석한다. 깊이가 k층이고 각 층에 n개의 뉴런이 있는 네트워크는 깊이가 얕은 네트워크보다 지수적으로 더 많은 선형 영역을 생성할 수 있으며, 얕은 네트워크는 kn개의 은닉 유닛을 갖는 경우 O(k^{n₀}n^{n₀})의 비율으로 증가하지만, 깊은 네트워크는 Ω((n/n₀)^{k−1}n^{n₀})의 비율으로 증가한다. 이는 깊이가 증가하거나 너비가 입력 크기의 두 배를 초과할 경우 표현 능력에서 명확한 이점이 있음을 보여준다.

ABSTRACT

Abstract: This paper explores the complexity of deep feed forward networks with linear pre-synaptic couplings and rectified linear activations. This is a contribution to the growing body of work contrasting the representational power of deep and shallow network architectures. In particular, we offer a framework for comparing deep and shallow models that belong to the family of piecewise linear functions based on computational geometry. We look at a deep rectifier multi-layer perceptron (MLP) with linear outputs units and compare it with a single layer version of the model. In the asymptotic regime, when the number of inputs stays constant, if the shallow model has $kn$ hidden units and $n_0$ inputs, then the number of linear regions is $O(k^{n_0}n^{n_0})$. For a $k$ layer model with $n$ hidden units on each layer it is $\Omega(\left( {n}/{n_0} ight)^{k-1}n^{n_0})$. $\left({n}/{n_0} ight)^{k-1}$ grows faster then $k^{n_0}$ when either $n$ goes to infinity or $k$ goes to infinity and $n > 2n_0$. We consider this as a first step towards understanding the complexity of these models and specifically towards providing suitable mathematical tools for future analysis.

연구 동기 및 목표

조각별 선형 활성화를 갖는 깊이 있는 피드포워드 신경망의 표현 복잡도를 이해하기 위해.
기하학적 분석을 통해 깊이 있는 아키텍처와 얕은 아키텍처의 선형 영역 수를 비교하기 위해.
깊이 있는 네트워크의 표현 능력을 분석하기 위한 수학적 도구를 수립하기 위해.
깊이와 너비가 ReLU 네트워크의 선형 영역 수에 어떻게 함께 영향을 미치는지 조사하기 위해.

제안 방법

복합 기하학을 활용하여 깊이 있는 ReLU 네트워크를 조각별 선형 함수로 모델링하기 위해.
선형 출력 유닛을 갖는 다층 퍼셉트론(MLP)에서 선형 영역의 수를 분석하기 위해.
동일한 파rameter 수를 갖는 k층 깊은 네트워크와 단일층 얕은 네트워크 사이의 선형 영역 수를 비교하기 위해.
고정된 입력 차원 n₀와 변화하는 깊이 k 또는 너비 n을 사용한 점근적 분석을 수행하기 위해.
조합 기하학 기법을 활용하여 선형 영역 수의 상한 및 하한을 도출하기 위해.
다른 스케일링 체제 하에서 영역 수의 증가율을 비교하기 위해 프레임워크를 적용하기 위해.

실험 결과

연구 질문

RQ1깊이 있는 ReLU 네트워크의 선형 영역 수가 깊이와 너비에 따라 얕은 네트워크와 비교해 어떻게 변화하는가?
RQ2k층이고 각 층에 n개의 유닛이 있는 깊은 네트워크에서 선형 영역 수의 점근적 증가율은 무엇인가?
RQ3깊이 또는 너비를 증가시키면, 얕은 모델 대비 선형 영역 수가 초다항적으로 증가하는가?
RQ4깊은 네트워크의 영역 수가 동일한 파rameter 수를 갖는 얕은 네트워크의 영역 수를 앞서기 위한 조건은 무엇인가?

주요 결과

kn개의 은닉 유닛과 n₀개의 입력을 갖는 얕은 네트워크의 선형 영역 수는 O(k^{n₀}n^{n₀})로 유계이다.
각 층에 n개의 유닛이 있는 k층 깊은 네트워크의 선형 영역 수는 최소 Ω((n/n₀)^{k−1}n^{n₀})이다.
n > 2n₀ 이고 n 또는 k가 증가할 경우, (n/n₀)^{k−1}은 k^{n₀}보다 더 빠르게 증가하므로 깊이의 이점이 나타난다.
동일한 파rameter 예산 하에서 깊은 네트워크의 영역 수는 얕은 모델 대비 초다항적으로 증가한다.
결과적으로 깊이가 선형 영역 복잡도 측면에서 표현 능력에 있어 상당한 이점이 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.