QUICK REVIEW

[논문 리뷰] On the Margin Theory of Feedforward Neural Networks

Colin Wei, Jason D. Lee|arXiv (Cornell University)|2018. 09. 27.

Model Reduction and Neural Networks참고 문헌 12인용 수 51

한 줄 요약

이 논문은 과다 매개변수화된 ReLU 전방향 신경망이 약한 정규화를 가진 교차 엔트로피 손실을 통해 전역 최소화점에서 최대화된 정규화된 마진을 달성함을 밝히며, 일반화 성능 향상을 마진 최대화 이론으로 설명한다. 무한한 너비를 가진 두층 신경망이 최적의 일반화 한계를 달성하며, 자연스러운 사례에서 커널 방법보다 뛰어난 성능을 보이며, 무한한 네트워크에서 흐트러진 경사 하강법이 다항 시간 내에 수렴함을 증명한다.

ABSTRACT

Past works have shown that, somewhat surprisingly, over-parametrization can help generalization in neural networks. Towards explaining this phenomenon, we adopt a margin-based perspective. We establish: 1) for multi-layer feedforward relu networks, the global minimizer of a weakly-regularized cross-entropy loss has the maximum normalized margin among all networks, 2) as a result, increasing the over-parametrization improves the normalized margin and generalization error bounds for two-layer networks. In particular, an infinite-size neural network enjoys the best generalization guarantees. The typical infinite feature methods are kernel methods; we compare the neural net margin with that of kernel methods and construct natural instances where kernel methods have much weaker generalization guarantees. We validate this gap between the two approaches empirically. Finally, this infinite-neuron viewpoint is also fruitful for analyzing optimization. We show that a perturbed gradient flow on infinite-size networks finds a global optimizer in polynomial time.

연구 동기 및 목표

과다 매개변수화가 딥 뉴럴 네트워크의 일반화 성능을 향상시키는 이유를 설명하는 것.
ReLU 네트워크에서 약한 정규화를 가진 교차 엔트로피 손실의 전역 최소화점이 최대화된 정규화된 마진을 달성함을 확립하는 것.
무한한 너비를 가진 신경망의 일반화 성능을 커널 방법과 비교하는 것.
무한한 너비를 가진 네트워크에서 최적화 역학을 흐트러진 경사 하강법을 사용해 분석하는 것.

제안 방법

약한 정규화를 가진 교차 엔트로피 손실 하에서 다층 ReLU 네트워크를 분석하여 마진 최대화 성질을 도출한다.
손실 함수의 전역 최소화점이 모든 네트워크 중에서 최대화된 정규화된 마진에 해당함을 도출한다.
특정 데이터 분포에서 무한한 너비를 가진 신경망의 정규화된 마진을 커널 방법의 마진과 비교한다.
자연스러운 사례에서 신경망과 커널 방법 간의 일반화 갭을 실험적으로 검증한다.
무한한 너비의 네트워크에서 최적화 수렴을 분석하기 위해 흐트러진 경사 하강법 역학을 도입한다.
무한한 네트워크에서 흐트러진 경사 하강법이 다항 시간 내에 전역 최적화점을 수렴함을 증명한다.

실험 결과

연구 질문

RQ1과다 매개변수화가 ReLU 네트워크에서 정규화된 마진을 최대화함으로써 일반화 성능을 향상시키는가?
RQ2무한한 너비를 가진 두층 네트워크가 유한한 너비의 네트워크보다 최고의 일반화 보장을 달성할 수 있는가?
RQ3자연스러운 데이터 설정에서 무한한 너비를 가진 신경망의 정규화된 마진은 커널 방법의 마진과 어떻게 비교되는가?
RQ4무한한 너비의 네트워크에서 흐트러진 경사 하강법이 다항 시간 내에 전역 최적화점을 수렴할 수 있는가?

주요 결과

다층 ReLU 네트워크에서 약한 정규화를 가진 교차 엔트로피 손실의 전역 최소화점은 모든 네트워크 중에서 최대화된 정규화된 마진을 달성한다.
과다 매개변수화를 증가시킬수록 두층 네트워크에서 정규화된 마진과 일반화 오차 한계가 향상된다.
무한한 너비를 가진 두층 네트워크는 최고의 일반화 보장을 달성하며, 자연스러운 사례에서 커널 방법을 능가한다.
실험 결과는 구성된 자연스러운 예시에서 신경망과 커널 방법 간에 뚜렷한 일반화 갭이 존재함을 확인한다.
무한한 너비의 네트워크에서 흐트러진 경사 하강법은 다항 시간 내에 전역 최적화점을 수렴한다.
마진 기반 분석은 딥 러닝에서 과다 매개변수화의 일반화 이점에 대한 이론적 기반을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.