QUICK REVIEW

[논문 리뷰] Reliably Learning the ReLU in Polynomial Time

Surbhi Goel, Varun Kanade|arXiv (Cornell University)|2016. 11. 30.

Neural Networks and Applications인용 수 54

한 줄 요약

이 논문은 레이블이 적대적으로 손상될 수 있는 신뢰할 수 있는 아그노스틱 학습 모델에서, 다항 시간 내에 안정적으로 레이어드 선형 유닛(ReLUs)을 학습하는 데 있어 최초의 알고리즘을 제시한다. 커널 방법, 다항식 근사, 이중 손실 볼록 최적화 프레임워크를 조합함으로써, 임의의 볼록, 유계, 리프시츠 손실 함수에 대해 거짓 양성과 회귀 손실 간의 최적 트레이드오프를 달성하며, 오차 내성 ε = Ω(1/log n)을 확보한다.

ABSTRACT

We give the first dimension-efficient algorithms for learning Rectified Linear Units (ReLUs), which are functions of the form $\mathbf{x} \mapsto \max(0, \mathbf{w} \cdot \mathbf{x})$ with $\mathbf{w} \in \mathbb{S}^{n-1}$. Our algorithm works in the challenging Reliable Agnostic learning model of Kalai, Kanade, and Mansour (2009) where the learner is given access to a distribution $\cal{D}$ on labeled examples but the labeling may be arbitrary. We construct a hypothesis that simultaneously minimizes the false-positive rate and the loss on inputs given positive labels by $\cal{D}$, for any convex, bounded, and Lipschitz loss function. The algorithm runs in polynomial-time (in $n$) with respect to any distribution on $\mathbb{S}^{n-1}$ (the unit sphere in $n$ dimensions) and for any error parameter $ε= Ω(1/\log n)$ (this yields a PTAS for a question raised by F. Bach on the complexity of maximizing ReLUs). These results are in contrast to known efficient algorithms for reliably learning linear threshold functions, where $ε$ must be $Ω(1)$ and strong assumptions are required on the marginal distribution. We can compose our results to obtain the first set of efficient algorithms for learning constant-depth networks of ReLUs. Our techniques combine kernel methods and polynomial approximations with a "dual-loss" approach to convex programming. As a byproduct we obtain a number of applications including the first set of efficient algorithms for "convex piecewise-linear fitting" and the first efficient algorithms for noisy polynomial reconstruction of low-weight polynomials on the unit sphere.

연구 동기 및 목표

딥 러닝에서 널리 사용되지만, 얕은 ReLU 네트워크 학습의 계산적 갭을 해결하기 위해.
적대적 레이블링 하에서 임계값 함수 학습의 비가역성을 극복하기 위해, ReLU에 특화된 새로운 학습 모델을 도입하기 위해.
임의의 레이블 노이즈 하에서 거짓 양성과 회귀 손실을 동시에 최소화하는 효율적이고 차원 확장 가능한 알고리즘 개발하기 위해.
상수 깊이 ReLU 네트워크 학습과 볼록 조각별 선형 피팅을 위한 첫 번째 효율적 알고리즘을 확립하기 위해.
단위 구면 상의 저중량 다항식에 대한 노이즈 있는 다항식 복원을 위한 프레임워크 제공하기 위해.

제안 방법

신뢰할 수 있는 아그노스틱 모델에서 학습 문제를 설정하여, 거짓 양성 제어와 양성 레이블에 대한 손실 최소화 간의 균형을 이끌어내기 위해.
동시에 거짓 양성 비율과 양성 예제에 대한 볼록, 유계, 리프시츠 손실을 최소화하는 이중 손실 목표 함수를 사용하기 위해.
효과적인 함수 근사의 목적으로 입력을 재생핵 힐버트 공간으로 매핑하기 위해 커널 방법을 적용하기 위해.
계산적으로 다룰 수 있는 형태로 ReLU 함수와 그 이중 손실 목표 함수를 표현하기 위해 다항식 근사 기법을 활용하기 위해.
반정형 프로그래밍 또는 관련 볼록 완화 기법을 사용하여 이중 손실 문제를 다항 시간 내에 해결하는 볼록 최적화 프레임워크를 설계하기 위해.
입력 분포에 의존하지 않는 차원 효율적 학습을 보장하기 위해 단위 구면(S^{n-1})의 구조를 활용하기 위해.

실험 결과

연구 질문

RQ1임의의 레이블 노이즈 하에서 강력한 분포 가정 없이 ReLU 함수를 효율적으로 학습할 수 있는가?
RQ2ReLU에 대해 단일 학습 프레임워크 내에서 거짓 양성 오류와 회귀 손실을 동시에 최소화할 수 있는가?
RQ3신뢰할 수 있는 ReLU 학습의 계산 복잡도는 무엇이며, ε = o(1)일 때 다항 시간 내에 달성 가능한가?
RQ4제안된 프레임워크는 더 깊은 ReLU 네트워크 학습이나 볼록 조각별 선형 피팅과 같은 유사 문제로 확장 가능한가?
RQ5ReLU의 신뢰할 수 있는 학습이 스파arsity 학습 파리티와 노이즈 또는 DNF 공식 학습과 같은 어려운 문제에 돌파구를 제공하는가?

주요 결과

제안된 알고리즘은 단위 구면 S^{n-1} 상의 임의의 분포에 대해 n에 대해 다항 시간 내에 실행되며, 오차 ε = Ω(1/log n)을 확보함으로써 ReLU 최적화에 대해 PTAS를 확립한다.
알고리즘은 거짓 양성 비율과 임의의 볼록, 유계, 리프시츠 손실 함수를 동시에 최소화하여, 적대적 레이블링 하에서도 강력한 트레이드오프를 제공한다.
이 프레임워크는 문제를 ReLU 학습으로 환원함으로써 볼록 조각별 선형 피팅을 위한 첫 번째 효율적 알고리즘을 도출한다.
저중량 다항식의 단위 구면 상 노이즈 있는 다항식 복원을 위한 첫 번째 효율적 방법을 가능하게 한다.
알고리즘은 상수 깊이 ReLU 네트워크 학습을 위한 조합 가능성을 제공하여, 더 깊은 아키텍처로의 적용 가능성을 확장한다.
희박한 학습 파리티와 노이즈의 경직성 가정 하에, {0,1}^n 상에서 ℓ1(w) ≤ 2k인 ReLU를 다항 시간 내에 안정적으로 학습할 수 있는 알고리즘이 존재하지 않음을 보여, 결과가 거의 최적임을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.