QUICK REVIEW

[논문 리뷰] Compressibility and Generalization in Large-Scale Deep Learning.

Wenda Zhou, Victor Veitch|arXiv (Cornell University)|2018. 01. 01.

Machine Learning and Algorithms인용 수 12

한 줄 요약

이 논문은 압축된 네트워크 크기를 기반으로 한 일반화 경계를 유도하여 딥 러닝에서 모델 압축과 일반화 사이의 이론적 연관성을 수립한다. 이는 이미지넷에서 훈련된 대규모 모델과 같은 모델에 대해 처음으로 비어 있지 않은 일반화 보장을 제공하며, 과적합이 증가할수록 모델를 기술하기 위해 필요한 비트 수가 증가하기 때문에 일반화 오차에 의해 압축 가능성은 본질적으로 제한됨을 보여준다.

ABSTRACT

Modern neural networks are highly overparameterized, with capacity to substantially overfit to training data. Nevertheless, these networks often generalize well in practice. It has also been observed that trained networks can often be to much smaller representations. The purpose of this paper is to connect these two empirical observations. Our main technical result is a generalization bound for compressed networks based on the compressed size. Combined with off-the-shelf compression algorithms, the bound leads to state of the art generalization guarantees; in particular, we provide the first non-vacuous generalization guarantees for realistic architectures applied to the ImageNet classification problem. As additional evidence connecting compression and generalization, we show that compressibility of models that tend to overfit is limited: We establish an absolute limit on expected compressibility as a function of expected generalization error, where the expectations are over the random choice of training examples. The bounds are complemented by empirical results that show an increase in overfitting implies an increase in the number of bits required to describe a trained network.

연구 동기 및 목표

과적합된 딥 뉴럴 네트워크에서 모델 압축 가능성과 일반화를 이론적으로 연결하는 것.
원래 모델의 용량이 아니라 압축된 모델의 크기에 의존하는 일반화 경계를 유도하는 것.
기대 일반화 오차의 함수로서 압축 가능성의 절대적 한계를 설정하는 것.
과적합과 압축 가능성 사이의 반비례 관계를 실증적으로 검증하는 것.

제안 방법

정보 이론 원리를 사용하여 압축된 네트워크 크기에 의존하는 일반화 경계를 유도한다.
실제 모델에 표준 압축 알고리즘(예: 프루닝, 양자화)을 적용하고 압축된 크기를 측정한다.
압축된 크기를 일반화 경계에 대체로 사용하여 최신 기술의 비어 있지 않은 보장을 달성한다.
이론적 분석은 과적합이 증가할수록 최소 기술 길이가 증가함에 따라 압축 가능성의 하한이 일반화 오차에 의해 제한됨을 보여준다.
일반화 오차와 훈련된 모델을 기술하기 위해 필요한 비트 수 사이의 정보 이론적 관계를 수립한다.

실험 결과

연구 질문

RQ1모델 압축을 사용하여 대규모 딥 네트워크에 대해 더 날카운 비어 있지 않은 일반화 경계를 도출할 수 있는가?
RQ2일반화 성능에 기반해 모델의 압축 가능성에 기본적인 한계가 존재하는가?
RQ3과적합이 증가할수록 모델를 기술하기 위해 필요한 비트 수가 증가하는가?
RQ4실제 설정(예: 이미지넷)에서 압축 기반 경계가 기존 일반화 경계를 능가할 수 있는가?

주요 결과

이 논문은 압축 기반 분석을 통해 현실적인 이미지넷 모델에 대해 처음으로 비어 있지 않은 일반화 경계를 달성한다.
압축 가능성은 일반화 오차에 의해 본질적으로 제한된다: 일반화 오차가 클수록 모델를 기술하기 위해 필요한 비트 수의 하한이 높아진다.
실증 결과는 과적합 경향이 있는 모델가 더 많은 비트를 필요로 함을 확인하여 과적합과 압축 가능성 감소 사이의 이론적 연결을 지지한다.
압축된 크기에서 유도된 일반화 경계는 이전 경계를 능가하며, 대규모 네트워크에 대해 최신 기술의 보장을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.