Skip to main content
QUICK REVIEW

[논문 리뷰] Reliably Learning the ReLU in Polynomial Time

Surbhi Goel, Varun Kanade|arXiv (Cornell University)|2016. 11. 30.
Neural Networks and Applications인용 수 54
한 줄 요약

이 논문은 레이블이 적대적으로 손상될 수 있는 신뢰할 수 있는 아그노스틱 학습 모델에서, 다항 시간 내에 안정적으로 레이어드 선형 유닛(ReLUs)을 학습하는 데 있어 최초의 알고리즘을 제시한다. 커널 방법, 다항식 근사, 이중 손실 볼록 최적화 프레임워크를 조합함으로써, 임의의 볼록, 유계, 리프시츠 손실 함수에 대해 거짓 양성과 회귀 손실 간의 최적 트레이드오프를 달성하며, 오차 내성 ε = Ω(1/log n)을 확보한다.

ABSTRACT

We give the first dimension-efficient algorithms for learning Rectified Linear Units (ReLUs), which are functions of the form $\mathbf{x} \mapsto \max(0, \mathbf{w} \cdot \mathbf{x})$ with $\mathbf{w} \in \mathbb{S}^{n-1}$. Our algorithm works in the challenging Reliable Agnostic learning model of Kalai, Kanade, and Mansour (2009) where the learner is given access to a distribution $\cal{D}$ on labeled examples but the labeling may be arbitrary. We construct a hypothesis that simultaneously minimizes the false-positive rate and the loss on inputs given positive labels by $\cal{D}$, for any convex, bounded, and Lipschitz loss function. The algorithm runs in polynomial-time (in $n$) with respect to any distribution on $\mathbb{S}^{n-1}$ (the unit sphere in $n$ dimensions) and for any error parameter $ε= Ω(1/\log n)$ (this yields a PTAS for a question raised by F. Bach on the complexity of maximizing ReLUs). These results are in contrast to known efficient algorithms for reliably learning linear threshold functions, where $ε$ must be $Ω(1)$ and strong assumptions are required on the marginal distribution. We can compose our results to obtain the first set of efficient algorithms for learning constant-depth networks of ReLUs. Our techniques combine kernel methods and polynomial approximations with a "dual-loss" approach to convex programming. As a byproduct we obtain a number of applications including the first set of efficient algorithms for "convex piecewise-linear fitting" and the first efficient algorithms for noisy polynomial reconstruction of low-weight polynomials on the unit sphere.

연구 동기 및 목표

  • 딥 러닝에서 널리 사용되지만, 얕은 ReLU 네트워크 학습의 계산적 갭을 해결하기 위해.
  • 적대적 레이블링 하에서 임계값 함수 학습의 비가역성을 극복하기 위해, ReLU에 특화된 새로운 학습 모델을 도입하기 위해.
  • 임의의 레이블 노이즈 하에서 거짓 양성과 회귀 손실을 동시에 최소화하는 효율적이고 차원 확장 가능한 알고리즘 개발하기 위해.
  • 상수 깊이 ReLU 네트워크 학습과 볼록 조각별 선형 피팅을 위한 첫 번째 효율적 알고리즘을 확립하기 위해.
  • 단위 구면 상의 저중량 다항식에 대한 노이즈 있는 다항식 복원을 위한 프레임워크 제공하기 위해.

제안 방법

  • 신뢰할 수 있는 아그노스틱 모델에서 학습 문제를 설정하여, 거짓 양성 제어와 양성 레이블에 대한 손실 최소화 간의 균형을 이끌어내기 위해.
  • 동시에 거짓 양성 비율과 양성 예제에 대한 볼록, 유계, 리프시츠 손실을 최소화하는 이중 손실 목표 함수를 사용하기 위해.
  • 효과적인 함수 근사의 목적으로 입력을 재생핵 힐버트 공간으로 매핑하기 위해 커널 방법을 적용하기 위해.
  • 계산적으로 다룰 수 있는 형태로 ReLU 함수와 그 이중 손실 목표 함수를 표현하기 위해 다항식 근사 기법을 활용하기 위해.
  • 반정형 프로그래밍 또는 관련 볼록 완화 기법을 사용하여 이중 손실 문제를 다항 시간 내에 해결하는 볼록 최적화 프레임워크를 설계하기 위해.
  • 입력 분포에 의존하지 않는 차원 효율적 학습을 보장하기 위해 단위 구면(S^{n-1})의 구조를 활용하기 위해.

실험 결과

연구 질문

  • RQ1임의의 레이블 노이즈 하에서 강력한 분포 가정 없이 ReLU 함수를 효율적으로 학습할 수 있는가?
  • RQ2ReLU에 대해 단일 학습 프레임워크 내에서 거짓 양성 오류와 회귀 손실을 동시에 최소화할 수 있는가?
  • RQ3신뢰할 수 있는 ReLU 학습의 계산 복잡도는 무엇이며, ε = o(1)일 때 다항 시간 내에 달성 가능한가?
  • RQ4제안된 프레임워크는 더 깊은 ReLU 네트워크 학습이나 볼록 조각별 선형 피팅과 같은 유사 문제로 확장 가능한가?
  • RQ5ReLU의 신뢰할 수 있는 학습이 스파arsity 학습 파리티와 노이즈 또는 DNF 공식 학습과 같은 어려운 문제에 돌파구를 제공하는가?

주요 결과

  • 제안된 알고리즘은 단위 구면 S^{n-1} 상의 임의의 분포에 대해 n에 대해 다항 시간 내에 실행되며, 오차 ε = Ω(1/log n)을 확보함으로써 ReLU 최적화에 대해 PTAS를 확립한다.
  • 알고리즘은 거짓 양성 비율과 임의의 볼록, 유계, 리프시츠 손실 함수를 동시에 최소화하여, 적대적 레이블링 하에서도 강력한 트레이드오프를 제공한다.
  • 이 프레임워크는 문제를 ReLU 학습으로 환원함으로써 볼록 조각별 선형 피팅을 위한 첫 번째 효율적 알고리즘을 도출한다.
  • 저중량 다항식의 단위 구면 상 노이즈 있는 다항식 복원을 위한 첫 번째 효율적 방법을 가능하게 한다.
  • 알고리즘은 상수 깊이 ReLU 네트워크 학습을 위한 조합 가능성을 제공하여, 더 깊은 아키텍처로의 적용 가능성을 확장한다.
  • 희박한 학습 파리티와 노이즈의 경직성 가정 하에, {0,1}^n 상에서 ℓ1(w) ≤ 2k인 ReLU를 다항 시간 내에 안정적으로 학습할 수 있는 알고리즘이 존재하지 않음을 보여, 결과가 거의 최적임을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.