QUICK REVIEW

[논문 리뷰] Predicting the Generalization Gap in Deep Networks with Margin Distributions

Yiding Jiang, Dilip Krishnan|arXiv (Cornell University)|2018. 09. 28.

Adversarial Robustness in Machine Learning참고 문헌 35인용 수 86

한 줄 요약

이 논문은 여러 계층에 걸친 마진-분포 기반 측정치를 제시하여 심층 네트워크의 일반화 간격을 예측하고, CIFAR-10/100에서 held-out 정확도와의 강한 상관관계를 보이며 몇몇 바운드를 능가한다. 이 접근은 계층 간 정규화된 마진 통계를 연결하고 간단한 선형 예측기를 사용한다.

ABSTRACT

As shown in recent research, deep neural networks can perfectly fit randomly labeled data, but with very poor accuracy on held out data. This phenomenon indicates that loss functions such as cross-entropy are not a reliable indicator of generalization. This leads to the crucial question of how generalization gap should be predicted from the training data and network parameters. In this paper, we propose such a measure, and conduct extensive empirical studies on how well it can predict the generalization gap. Our measure is based on the concept of margin distribution, which are the distances of training points to the decision boundary. We find that it is necessary to use margin distributions at multiple layers of a deep network. On the CIFAR-10 and the CIFAR-100 datasets, our proposed measure correlates very strongly with the generalization gap. In addition, we find the following other factors to be of importance: normalizing margin values for scale independence, using characterizations of margin distribution rather than just the margin (closest distance to decision boundary), and working in log space instead of linear space (effectively using a product of margins rather than a sum). Our measure can be easily applied to feedforward deep networks with any architecture and may point towards new training loss functions that could enable better generalization.

연구 동기 및 목표

학습 손실이 작고 전통적인 손실/바운드가 일반화를 예측하지 못하는 심층 네트워크에서 일반화 간격을 동기 부여하고 정량화한다.
여러 계층에 걸친 정보를 포착하여 일반화 간격을 예측하는 마진-분포 기반 측정을 개발한다.
계층별 마진 분포를 정규화하고 요약하여 회귀를 위한 간결한 특징 집합을 형성한다.
제안된 측정법의 예측 힘을 아키텍처(CNN과 ResNet)와 데이터셋(CIFAR-10/100)에서 시연한다.
마진 기반 측정치가 더 나은 일반화를 위한 새로운 손실 함수나 학습 기법에 영감을 줄 수 있음을 제안한다.

제안 방법

의사 결정 경계까지의 거리의 1차 테일러 근사를 사용하여 계층별 마진 거리를 정의한다( Eq. 3 ).
계층 활성화의 총 분산(경험적 공분산의 트레이스) 제곱근으로 마진을 정규화한다(Eq. 5).
각 계층에서 마진 분포를 구성하고 사분위수와 울타리로 요약한다(계층당 5개의 통계).
계층별 서명을 총 서명 벡터 theta로 연결한다(일반적으로 입력 및 세 개의 은닉 계층을 사용).
일반화 간격을 선형 모델 hat{g} = a^T phi(theta) + b로 예측하고 phi(x)=x와 phi(x)=log(x)를 비교한다.
K-폴드(k=10)로 보류된 모델 풀에서 R^2를 사용하여 예측력을 평가하고 조정된 R^2를 모델 적합도 척도로 보고한다.

실험 결과

연구 질문

RQ1은닉 계층의 마진 분포가 출력 계층의 마진이나 노름 기반 바운드보다 일반화 간격을 더 잘 예측할 수 있을까?
RQ2마진을 정규화하고 계층별 마진 정보를 집계하는 것이 일반화 간격 예측을 향상시키는가?
RQ3아키텍처 전반에서 정확한 예측을 달성하기 위해 필요한 계층의 수와 어떤 계층들이 필요한가?
RQ4변환된 마진 서명에 대한 단순 선형 모델이 데이터셋과 아키텍처 전반에 걸쳐 일반화 간격을 견고하게 예측할 수 있는가?

주요 결과

정규화된 다층 마진 분포가 일반화 간격과 강하게 상관되며 출력 마진 기반 기준선보다 예측을 향상시킨다.
사분위 기반 서명에 로그 변환을 사용하면 높은 예측력을 얻는다(실험에 나타난 조정된 R^2 값).
은닉 층에서의 마진 정보가 예측 정확도에 결정적이며 입력 또는 출력 계층의 마진만으로는 부족하다.
제안된 마진 기반 예측기가 Bartlett et al. (2017) 및 다른 베이스라인들을 CIFAR-10/100에서 CNN과 ResNet으로 일반화 간격 예측에서 능가한다.
이 접근법은 ResNet을 포함한 피드포워드 네트워크에도 적용되며 일반화를 개선하기 위한 새로운 손실 함수의 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.