QUICK REVIEW

[논문 리뷰] Risk Bounds for High-dimensional Ridge Function Combinations Including Neural Networks

Jason M. Klusowski, Andrew R. Barron|arXiv (Cornell University)|2016. 07. 05.

Model Reduction and Neural Networks참고 문헌 25인용 수 37

한 줄 요약

이 논문은 스펙트럴 노름과 원자 노름을 활용하여 릿지 함수의 선형 조합, 특히 단일층 신경망을 포함한 고차원 함수 추정에 대한 위험 한계를 수립한다. 연속적인 파rameter 공간을 사용할 경우 추정 오차가 $(v_{f^\bullet}^4 \frac{"\log d"}{n})^{1/3}$ 로 감소함을 보이며, $d \gg n$ 인 고차원 설정에서 기존의 경계보다 크게 향상된다. 결과는 시그모이드, 램프, 삼각함수와 같은 부드러운 활성화 함수에 적용되며, 파arameter 수가 표본 크기보다 많을 때에도 유리한 수렴성을 보인다.

ABSTRACT

Let $ f^{\star} $ be a function on $ \mathbb{R}^d $ with an assumption of a spectral norm $ v_{f^{\star}} $. For various noise settings, we show that $ \mathbb{E}\|\hat{f} - f^{\star} \|^2 \leq \left(v^4_{f^{\star}}\frac{\log d}{n} ight)^{1/3} $, where $ n $ is the sample size and $ \hat{f} $ is either a penalized least squares estimator or a greedily obtained version of such using linear combinations of sinusoidal, sigmoidal, ramp, ramp-squared or other smooth ridge functions. The candidate fits may be chosen from a continuum of functions, thus avoiding the rigidity of discretizations of the parameter space. On the other hand, if the candidate fits are chosen from a discretization, we show that $ \mathbb{E}\|\hat{f} - f^{\star} \|^2 \leq \left(v^3_{f^{\star}}\frac{\log d}{n} ight)^{2/5} $. This work bridges non-linear and non-parametric function estimation and includes single-hidden layer nets. Unlike past theory for such settings, our bound shows that the risk is small even when the input dimension $ d $ of an infinite-dimensional parameterized dictionary is much larger than the available sample size. When the dimension is larger than the cube root of the sample size, this quantity is seen to improve the more familiar risk bound of $ v_{f^{\star}}\left(\frac{d\log (n/d)}{n} ight)^{1/2} $, also investigated here.

연구 동기 및 목표

고차원 함수 추정에 대해 릿지 함수의 선형 조합을 사용한 일반화 오차 한계를 유도하는 것.
비모수적이고 비선형 추정에서 기존 경계가 실패하는 $d \gg n$ 문제에 대응하는 것.
파arameter 수가 표본 크기보다 많을 때도 위험이 작게 유지됨을 보여주는 것.
단일층 신경망과 릿지 함수 근사 이론을 통합하고 확장하는 것.
스펙트럴 노름 제어와 원자 노름 정규화를 통해 개선된 수렴 속도를 확립하는 것.

제안 방법

릿지 함수 $f(x) = \sum_{k=1}^m c_k \phi(a_k \cdot x + b_k)$ 의 연속적인 파arameter 공간 위에서 페널티가 부여된 최소 제곱 추정기 사용.
원자 노름 $\|f\|_{\mathcal{H}}$ 는 함수 $f$ 를 사전 $\mathcal{H}$ 에서의 함수 표현을 사용할 때의 최소 $\ell_1$-노름으로 정의.
목표 함수 $f^\star$ 의 매끄럽기 정도와 정규성을 측정하기 위해 스펙트럴 노름 $v_{f^\star,s} = \int_{\mathbb{R}^d} \|\omega\|_1^s |\widetilde{f}(\omega)| d\omega$ 를 도입.
표본 기반 근사화를 위해 밀도가 $|\cos(\|\omega\|_1 t + b(\omega))| \|\omega\|_1^2 |\widetilde{f}(\omega)|$ 와 비례하는 확률 분포에서 랜덤으로 추출한 샘플을 사용하여 $\pm(\alpha \cdot x - t)_+$ 의 선형 조합을 구성.
푸비니 정리와 푸리에 변환의 적분 표현을 활용하여 근사 오차와 복잡도를 균형 잡고 위험 한계를 도출.
두 번째 차수 근사를 위해 제곱 릿지 함수 $(a_k \cdot x + b_k)^2_+$ 를 사용하여 고차수 테일러 전개 프레임워크를 확장.

실험 결과

연구 질문

RQ1파arameter 수 $d$ 가 표본 크기 $n$ 을 초과할 때 고차원 함수 추정에 대해 위험 한계를 도출할 수 있는가?
RQ2연속적이고 이산적인 파arameter 공간의 선택이 릿지 함수 추정기의 수렴 속도에 어떤 영향을 미치는가?
RQ3특히 신경망 유사 모델에 대해 선형 릿지 함수 조합의 최적 수렴 속도는 무엇인가?
RQ4스펙트럴 노름 $v_{f^\star,s}$ 는 근사 오차를 제어하고 고차원 설정으로 일반화하는 데 사용될 수 있는가?
RQ5원자 노름과 페널티가 부여된 최소 제곱 추정기는 고차원에서 어떻게 상호작용하여 개선된 일반화 성능을 이끌어내는가?

주요 결과

연속적인 파arameter 공간의 경우 위험 한계는 $\mathbb{E}\|\hat{f} - f^\star\|^2 \leq \left(v_{f^\star}^4 \frac{\log d}{n}\right)^{1/3}$ 이며, $d \gg n$ 일 때 기존 경계보다 향상됨.
이산적인 파arameter 공간의 경우 위험 한계는 $\mathbb{E}\|\hat{f} - f^\star\|^2 \leq \left(v_{f^\star}^3 \frac{\log d}{n}\right)^{2/5}$ 로, 고차원에서는 느리지만 더 유리한 수렴 속도를 보임.
이 경계는 시그모이드, 램프, 삼각함수 및 그 제곱 변형을 포함한 광범위한 활성화 함수 클래스에 대해 유효하며, 단일층 신경망에의 적용 가능함.
파라미터 $m$ 개의 릿지 함수를 사용할 때 $f^\star$ 의 근사 오차는 $\pm(\alpha \cdot x - t)_+$ 를 사용할 경우 $16v_{f^\star,2}^2 / m$ 이하로 제한되며, 제곱 릿지 함수를 사용한 두 번째 차수 전개의 경우 $16v_{f^\star,3}^2 / m$ 이하로 제한됨.
이 프레임워크는 파arameter 공간을 이산화하지 않고도 무한차원 사전을 사용한 비모수적 추정을 가능하게 하여 유연성과 적응성 향상.
결과는 $d \gg n$ 일 때도 일반화 오차가 작게 유지됨을 보여주며, 고차원 영역에서 신경망 이론적 이해의 격차를 해소함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.