Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Neural Networks with Two Nonlinear Layers in Polynomial Time

Surbhi Goel, Adam R. Klivans|arXiv (Cornell University)|2017. 09. 18.
Machine Learning and Algorithms참고 문헌 28인용 수 34
한 줄 요약

이 논문은 시그모이드 활성화 함수를 가진 한 층의 은닉 유닛과 임의의 리프시츠, 단조 증가하는 출력 활성화 함수(예: ReLU 또는 시그모이드)를 가진 이중층 신경망을 다항 시간 내에 학습하는 알고리즘인 Alphatron을 제안한다. 이 알고리즘은 유닛 볼 안에서 임의의 분포에 대해 분포나 구조적 가정 없이 효율적인 학습을 가능하게 하며, 이러한 네트워크에 대해 가정 없이 증명 가능한 효율성을 보장하는 첫 번째 방법을 제공한다. 표본 및 런타임 복잡도는 입력 차원, 네트워크 크기, 반대 정확도의 역수에 다항식 비례한다.

ABSTRACT

We give a polynomial-time algorithm for learning neural networks with one layer of sigmoids feeding into any Lipschitz, monotone activation function (e.g., sigmoid or ReLU). We make no assumptions on the structure of the network, and the algorithm succeeds with respect to {\em any} distribution on the unit ball in $n$ dimensions (hidden weight vectors also have unit norm). This is the first assumption-free, provably efficient algorithm for learning neural networks with two nonlinear layers. Our algorithm-- {\em Alphatron}-- is a simple, iterative update rule that combines isotonic regression with kernel methods. It outputs a hypothesis that yields efficient oracle access to interpretable features. It also suggests a new approach to Boolean learning problems via real-valued conditional-mean functions, sidestepping traditional hardness results from computational learning theory. Along these lines, we subsume and improve many longstanding results for PAC learning Boolean functions to the more general, real-valued setting of {\em probabilistic concepts}, a model that (unlike PAC learning) requires non-i.i.d. noise-tolerance.

연구 동기 및 목표

  • 한 층의 시그모이드 은닉 유닛과 임의의 리프시츠, 단조 증가하는 출력 활성화 함수를 가진 이중층 신경망을 다항 시간 내에 증명 가능한 효율성으로 학습할 수 있는 알고리즘을 개발하는 것.
  • 데이터 분포, 네트워크 구조, 가중치 벡터에 대한 제한적인 가정을 제거하여 단위 볼 위에서 가정 없는 학습을 달성하는 것.
  • 학습된 가설에서 설명 가능한 특징에 효율적인 오라클 액세스를 제공하여 특징 수준의 해석을 가능하게 하는 것.
  • 계산학습이론의 영역을 확장하여, 보다 일반적인 확률적 개념 모델에서 불리안 함수의 PAC 학습에 대해 알려진 결과를 포함하고 개선하는 것.
  • DNF 공식, 반평면의 대부분, 그리고 하위모듈라 함수와 같은 클래스에 대해 비-i.i.d. 노이즈에 강건한 첫 번째 학습 알고리즘을 수립하는 것.

제안 방법

  • 등온 회귀와 커널 방법을 결합한 반복적 알고리즘인 Alphatron을 제안하여 특징의 실수값, 단조 증가, 리프시츠 조합을 학습한다.
  • 커널 기반 표현을 사용해 특징의 곱을 암묵적으로 인코딩함으로써, 명시적인 계산 없이도 계수에 효율적인 오라클 액세스를 가능하게 한다.
  • 희소 푸리에 근사에 대한 투영 연산자를 적용하여, 부드럽고 단조 증가하는 함수에 대해 KM 알고리즘을 확률적 개념 모델으로 확장한다.
  • 리니얼-만수어-니산 저차수 알고리즘을 일반화하여, 저중량 다항식으로 근사 가능한 회로의 단조 조합을 학습한다.
  • 반평면의 교차에 대해 저중량 다항식 근사기를 활용하여, 이러한 조합에 대해 첫 번째 다항 시간 알고리즘을 달성한다.
  • 다항식 커널과 커널 기반 등온 회귀를 사용해, 백에 속한 종속된 인스턴스를 포함한 다중 인스턴스 학습(MIL)을 다룬다.

실험 결과

연구 질문

  • RQ1분포나 아키텍처에 대한 가정 없이, 한 층의 시그모이드 은닉 유닛과 임의의 리프시츠, 단조 증가 출력 활성화 함수를 가진 이중층 신경망을 다항 시간 내에 학습할 수 있는가?
  • RQ2기존 불리안 개념 클래스를 실수값 확률적 개념으로 일반화함으로써, 비-i.i.i.d. 노이즈에 강건한 학습이 가능한가?
  • RQ3함수를 커널 방법으로 암묵적으로 표현하더라도, 학습된 가설에서 설명 가능한 특징에 효율적인 오라클 액세스를 제공할 수 있는가?
  • RQ4기존 학습 알고리즘(KM, LMN 등)을 확률적 개념 모델으로 일반화하여, 복잡한 함수 클래스의 일반화된, 노이즈에 강건한 학습을 달성할 수 있는가?
  • RQ5백 내의 인스턴스가 독립적이라는 가정 없이, 또는 한쪽 노이즈 학습 알고리즘을 요구하지 않고, 다중 인스턴스 학습(MIL)에서 증명 가능한 일반화 성능을 달성할 수 있는가?

주요 결과

  • Alphatron은 입력 차원 $n$, 네트워크 크기 $k$, 정확도 역수 $1/ heta$, 그리고 리프시츠 상수 $L$ 에 대해 다항 시간 및 표본 복잡도 내에서, 한 층의 시그모이드 은닉 유닛과 임의의 리프시츠, 단조 증가 출력 활성화 함수를 가진 이중층 ReLU 또는 시그모이드 네트워크를 학습하며, 오차 $ ext{error} riangleq ext{Err}(c, u(f( extbf{x}))) ightarrow heta$ 를 달성한다.
  • 알고리즘은 기존에 알려진 악성 학습의 최악의 경우 난이도 결과를 극복하고, 두 개의 비선형 층에 대해 가정 없는 다항 시간 학습을 달성하는 데 성공한다.
  • 초입방체 위의 균일 분포에 대해, Alphatron은 희소 푸리에 근사를 사용해 $L_1$-유계 함수의 부드럽고 단조 증가 조합을 학습함으로써 이전 연구를 초월한다.
  • 이 방법은 리니얼-만수어-니산 저차수 알고리즘을 일반화하여, 저중량 다항식으로 근사 가능한 회로의 단조 조합을 학습할 수 있게 하며, 확률적 개념 모델에서 '무료' 학습을 가능하게 한다.
  • Alphatron은 반평면의 대부분과 DNF 공식에 대해 비-i.i.d. 노이즈에 강건한 첫 번째 학습 알고리즘을 제공하며, 이전 연구가 요구한 i.i.d. 노이즈 또는 작은 마진 조건을 초월한다.
  • 다중 인스턴스 학습에서, Alphatron은 단위 구면 위에서 반평면의 일정한 마진과 시그모이드 네트워크를 다항 시간 및 표본 복잡도 내에서 학습하며, 백 내의 인스턴스에 대한 독립성 가정 없이 확률적 MIL 가정 하에 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.