QUICK REVIEW

[논문 리뷰] Identification of Shallow Neural Networks by Fewest Samples.

Massimo Fornasier, Jan Vybíral|arXiv (Cornell University)|2018. 04. 04.

Advanced Neural Network Applications인용 수 2

한 줄 요약

이 논문은 약간의 부드러움과 거의 수직성 조건을 가정할 때, 최소한의 무작위 표본을 사용하여 얕은 신경망—리지 함수의 합—을 식별하는 방법을 제안한다. 순차적으로 리지 방향의 범위를 근사하고, 치환을 통해 차원을 감소시키며, 스펙트럴 노름 최대화를 통해 랭크-1 행렬을 식별하는 방식으로, 이 접근법은 높은 확률로 균일한 근사가 가능하게 하며, 이중 미분을 통해 가중치 복원을 행렬 텐서 분해에 연결한다.

ABSTRACT

We address the uniform approximation of sums of ridge functions $\sum_{i=1}^m g_i(a_i\cdot x)$ on ${\mathbb R}^d$, representing the shallowest form of feed-forward neural network, from a small number of query samples, under mild smoothness assumptions on the functions $g_i$'s and near-orthogonality of the ridge directions $a_i$'s. The sample points are randomly generated and are universal, in the sense that the sampled queries on those points will allow the proposed recovery algorithms to perform a uniform approximation of any sum of ridge functions with high-probability. Our general approximation strategy is developed as a sequence of algorithms to perform individual sub-tasks. We first approximate the span of the ridge directions. Then we use a straightforward substitution, which reduces the dimensionality of the problem from $d$ to $m$. The core of the construction is then the approximation of ridge directions expressed in terms of rank-$1$ matrices $a_i \otimes a_i$, realized by formulating their individual identification as a suitable nonlinear program, maximizing the spectral norm of certain competitors constrained over the unit Frobenius sphere. The final step is then to approximate the functions $g_1,\dots,g_m$ by $\hat g_1,\dots,\hat g_m$. Higher order differentiation, as used in our construction, of sums of ridge functions or of their compositions, as in deeper neural network, yields a natural connection between neural network weight identification and tensor product decomposition identification. In the case of the shallowest feed-forward neural network, we show that second order differentiation and tensors of order two (i.e., matrices) suffice.

연구 동기 및 목표

최소한의 무작위 표본으로부터 얕은 신경망(리지 함수의 합)의 균일한 근사를 가능하게 하기 위해.
단지 몇 개의 질의만으로도 높은 확률로 리지 방향과 해당 함수 $ g_i $를 식별하기 위해.
이중 미분을 통해 얕은 신경망의 가중치 식별과 행렬 텐서 분해 사이의 연결 고리를 설정하기 위해.
어떤 리지 함수의 합이든 작동하는 일반적인 표본 전략을 개발하기 위해.
리지 방향의 범위 근사를 통해 원래의 $ d $-차원 문제를 $ m $-차원 문제로 감소시키기 위해.

제안 방법

무작위 표본과 선형 대수 기법을 사용하여 리지 방향 $ a_i $의 범위를 근사하기 위해.
범위 근사를 활용하는 치환을 통해 문제의 차원을 $ d $에서 $ m $으로 감소시키기 위해.
각 리지 방향의 식별을 단위 프로베니우스 구면 위에서 경쟁 행렬의 스펙트럴 노름을 최대화하는 비선형 프로그래밍 문제로 공식화하기 위해.
각 리지 방향을 랭크-1 행렬 $ a_i \times a_i $로 표현하여 행렬 기반 최적화를 가능하게 하기 위해.
이중 미분을 사용하여 가중치 식별을 랭크-2 텐서(행렬)의 분해에 연결하기 위해.
방향 복원 이후에 함수 $ g_1, \dots, g_m $을 $ \hat g_1, \dots, \hat g_m $으로 근사하여 재구성하기 위해.

실험 결과

연구 질문

RQ1약간의 부드러움과 거의 수직성 조건 하에서, 최소한의 무작위 표본만으로도 얕은 신경망을 높은 확률로 식별할 수 있는가?
RQ2약간의 부드러움과 거의 수직성 조건 하에서, 제한된 데이터에서 리지 방향 $ a_i $를 어떻게 복원할 수 있는가?
RQ3이중 미분은 신경망 가중치 식별과 행렬 텐서 분해 사이의 연결 고리에서 어떤 역할을 하는가?
RQ4근사 정확도를 유지하면서 문제의 차원을 어느 정도까지 감소시킬 수 있는가?
RQ5모든 리지 함수의 합에 대해 균일하게 작동하는 일반적인 표본 전략을 구성할 수 있는가?

주요 결과

제안된 알고리즘은 매우 적은 수의 무작위 생성 표본만으로도 어떤 리지 함수의 합에 대해서도 높은 확률로 균일한 근사를 달성한다.
리지 방향의 범위가 표본에서 성공적으로 근사되어, $ d $에서 $ m $으로의 효과적인 차원 감소가 가능해졌다.
각 리지 방향 $ a_i $의 식별은 단위 프로베니우스 구면 위에서 스펙트럴 노름 최대화 문제로 공식화되어 있어, 강건성과 수렴성을 보장한다.
이중 미분만으로도 얕은 신경망의 가중치 복원을 랭크-2 텐서(행렬)의 분해에 연결하는 데 충분하다.
함수 $ g_i $의 최종 근사는 $ \hat g_i $를 통해 달성되며, 전체 파ipeline는 제시된 가정 하에 높은 확률로 복원을 보장한다.
이 방법은 동일한 표본 전략이 모든 이러한 네트워크에 적용 가능하므로, 함수나 방향에 대한 사전 지식 없이도 일반적인 성격을 지닌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.