Skip to main content
QUICK REVIEW

[논문 리뷰] Banach Space Representer Theorems for Neural Networks and Ridge Splines

Rahul Parhi, Robert D. Nowak|arXiv (Cornell University)|2020. 06. 10.
Neural Networks and Applications참고 문헌 64인용 수 37
한 줄 요약

이 논문은 Radon 도메인에서 총변화(TV) 규제화를 갖는 변분 프레임워크를 개발하고, 표현자 정리(representer theorem)를 증명한다: 유한 너비의 단일 은닉층 신경망이 연속 도메인 역문제를 해결하며, 다항 리지 스플라인을 도입하고 규제항을 일반적인 NN 훈련 관행과 연결한다.

ABSTRACT

We develop a variational framework to understand the properties of the functions learned by neural networks fit to data. We propose and study a family of continuous-domain linear inverse problems with total variation-like regularization in the Radon domain subject to data fitting constraints. We derive a representer theorem showing that finite-width, single-hidden layer neural networks are solutions to these inverse problems. We draw on many techniques from variational spline theory and so we propose the notion of polynomial ridge splines, which correspond to single-hidden layer neural networks with truncated power functions as the activation function. The representer theorem is reminiscent of the classical reproducing kernel Hilbert space representer theorem, but we show that the neural network problem is posed over a non-Hilbertian Banach space. While the learning problems are posed in the continuous-domain, similar to kernel methods, the problems can be recast as finite-dimensional neural network training problems. These neural network training problems have regularizers which are related to the well-known weight decay and path-norm regularizers. Thus, our result gives insight into functional characteristics of trained neural networks and also into the design neural network regularizers. We also show that these regularizers promote neural network solutions with desirable generalization properties.

연구 동기 및 목표

  • 신경망이 연속 도메인 역문제를 통해 데이터에 맞춰 학습한 함수의 속성을 이해한다.
  • Radon 도메인에서 TV와 유사한 준노름의 계열을 개발하여 신경망 유형의 해를 얻는다.
  • 해당 규제항을 univariate 스플라인과 관련시키고 대응하는 리지 스플라인을 도입한다.
  • 이 결과가 규제 효과와 신경망의 일반화 특성에 대해 어떻게 설명하는지 보여준다.

제안 방법

  • Radon 도메인에서 TV와 유사한 규제 및 데이터 피팅 항을 갖는 연속 도메인 선형 역문제를 형식화한다.
  • Radon 변환, ramp 필터, Radon 도메인의 도함수를 기반으로 한 m차 준노름 ||·||_(m) 계열을 정의한다.
  • 희소해를 가지는 해가 단일 은닉층 신경망과 저차 다항식의 합으로 표현된다는 표현자 정리(representer theorem)를 증명한다(식 10).
  • 문제를 가중치 감쇠(weight decay)와 경로-노름(path-norm)과 관련된 규제항을 갖는 유한 차원 NN 훈련 문제로 재구성할 수 있음을 보인다(식 14–16).
  • Radon 도메인에서 연산자 R_m과 Dirac 펄스로 비균일 다항 리지 스플라인을 정의한다(정의 4–5).
  • m=2를 ReLU 네트워크와 연결하고 동질성(homogeneity) 및 스킵 연결(skip connections)을 논의한다(주석 2–3).

실험 결과

연구 질문

  • RQ1Radon 도메인에서 TV-like 규제자를 갖는 연속 도메인 역문제가 희소한 신경망 유형의 해를 허용하는가?
  • RQ2제안된 Radon 도메인 준노름이 학습된 함수 클래스의 특성과 일반적인 NN 규제와의 관계를 어떻게 규정하는가?
  • RQ3Radon 도메인에서의 리지 스플라인과 다양한 활성화 함수를 갖는 신경망 사이의 연결 고리는 무엇인가?
  • RQ4결과가 유한 너비 네트워크로 확장되며 준노름 한계를 통한 일반화에 대한 통찰을 제공하는가?

주요 결과

  • 해당 역문제에 대한 희소 최소해가 단일 은닉층 신경망과 다항식의 합의 형태로 나타나는 해를 가진다(K ≤ N − dim(N_m)).
  • 준노름 ||·||_(m)은 Radon 도메인에서 TV-와 유사하며, m=2일 때 표현자는 ReLU 네트워크로 축약된다.
  • 식 14–16을 통해 유한 차원 NN 훈련 문제는 가중치 감소(weight decay)와 경로-노름에 비유되는 규제항과 대응하며 연속-이산 형식의 연결을 형성한다.
  • 작은 준노름 하에서 학습된 신경망은 합의 Rademacher 복잡도 경계(이진 분류 설정)를 통해 일반화 특성을 보인다.
  • 비균일 다항 리지 스플라인은 Radon 도메인 프레임워크에서 신경망 구조를 다변수 일반화로 포착하는 다변수 일반화를 제공한다.
  • 이 프레임워크는 함수를 포함하는 Banach 공간 기반의 표현자 정리를 도출하며, 작용하는 함수 공간의 비히르트 공간이 아닌 위상학적 특징을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.