Skip to main content
QUICK REVIEW

[논문 리뷰] Stronger generalization bounds for deep nets via a compression approach

Sanjeev Arora, Rong Ge|arXiv (Cornell University)|2018. 02. 14.
Adversarial Robustness in Machine Learning참고 문헌 28인용 수 95
한 줄 요약

이 논문은 훈련된 네트워크를 압축하고 노이즈-안정성 속성을 분석함으로써 심층 신경망(컨볼루션 신경망 포함)에 대해 현저히 더 타이트한 일반화 경계를 도출하는 압축 기반 프레임워크를 제시한다.

ABSTRACT

Deep nets generalize well despite having more parameters than the number of training samples. Recent works try to give an explanation using PAC-Bayes and Margin-based analyses, but do not as yet result in sample complexity bounds better than naive parameter counting. The current paper shows generalization bounds that're orders of magnitude better in practice. These rely upon new succinct reparametrizations of the trained net --- a compression that is explicit and efficient. These yield generalization bounds via a simple compression-based framework introduced here. Our results also provide some theoretical justification for widespread empirical success in compressing deep nets. Analysis of correctness of our compression relies upon some newly identified extquotedblleft noise stability extquotedblright properties of trained deep nets, which are also experimentally verified. The study of these properties and resulting generalization bounds are also extended to convolutional nets, which had eluded earlier attempts on proving generalization.

연구 동기 및 목표

  • 딥 네트가 과매개변수화에도 불구하고 일반화하는 이유를 동기부여한다.
  • 일반화 오류를 한정하기 위한 간단한 압축 기반 프레임워크를 제안한다.
  • 압축을 가능하게 하는 노이즈-안정성 속성을 식별하고 실증적으로 검증한다.
  • 해석을 합성곱 신경망으로 확장하고 이론과 실제를 연결한다.

제안 방법

  • (gamma, S)-압축성 및 도우미 문자열을 사용한 (gamma, S)-압축성을 정의하여 압축된 모델이 원래 성능과 어떤 관련이 있는지 설명한다.
  • L0(g_A)에 대한 경계로 일반화와의 연계를 제공하는 정리 2.1을 제시한다.
  • 레이어별 압축과 안정적 순위를 이용한 일반화 경계(정리 2.2)를 딥 네트에 대해 증명한다.
  • 강력한 압축을 정당화하기 위해 층별 쿠션(layer cushion), 층 간 쿠션(interlayer cushion), 활성화 수축(activation contraction), 층 간 매끄러움(interlayer smoothness) 등의 노이즈-안정성 개념을 도입한다.
  • 출력 섭동을 바인딩하고 유효 매개변수 수를 줄이는 알고리즘 1(Matrix-Project)을 제안한다.
  • 공유 필터에 대한 p-유사 독립성(p-wise independence)을 도입하여 합성곱 네트에 프레임워크를 확장한다.

실험 결과

연구 질문

  • RQ1학습된 심층 네트를 더 간단한 모델로 압축하여 비슷한 학습 성능을 제공하고 더 나은 일반화 경계를 얻을 수 있는가?
  • RQ2레이어의 노이즈-안정성 속성이 큰 일반화 페널티 없이 공격적으로 압축을 허용하는가?
  • RQ3압축 프레임워크를 합성곱 구조로 확장하면서 보장성을 유지할 수 있는가?
  • RQ4제안된 경계가 실제 네트워크의 일반화 행동과 일치하는가?

주요 결과

  • 압축 기반 프레임워크가 순진한 매개변수 수 계산보다 더 촘촘한 일반화 경계를 얻는다.
  • 레이어별 압축 오차를 제어하면 특정 쿠션과 매끄러움 속성 하에서 전체 출력 섭동이 작게 유지될 수 있다.
  • 완전 연결 네트의 경우 경계는 층 쿠션, 층 간 쿠션, 활성화 수축, 층 간 매끄러움, 그리고 층의 안정적 순도에 의존한다.
  • 합성곱 네트에도 p-유사 독립성 필터 압축과 일반화된 층 간 쿠션을 사용하여 프레임워크를 확장한다.
  • VGG-19 및 AlexNet에 대한 실증적 평가에서 제안된 안정성 속성과 압축 기반 경계가 CIFAR-10에서 일반화와 가능한 상관관계를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.