QUICK REVIEW

[논문 리뷰] Lost in Pruning: The Effects of Pruning Neural Networks beyond Test Accuracy

Lucas Liebenwein, Cenk Baykal|arXiv (Cornell University)|2021. 03. 04.

Advanced Neural Network Applications참고 문헌 63인용 수 29

한 줄 요약

본 논문은 테스트 정확도를 유지하기 위한 신경망 가지치기가 분포 변화에 대한 강건성과 일반화에 악영향을 줄 수 있으며, 가지치기 가능성(prune potential)이 작업과 데이터 분포에 따라 달라져 과적매개화(overparameterization) 가정에 도전한다고 주장한다.

ABSTRACT

Neural network pruning is a popular technique used to reduce the inference costs of modern, potentially overparameterized, networks. Starting from a pre-trained network, the process is as follows: remove redundant parameters, retrain, and repeat while maintaining the same test accuracy. The result is a model that is a fraction of the size of the original with comparable predictive performance (test accuracy). Here, we reassess and evaluate whether the use of test accuracy alone in the terminating condition is sufficient to ensure that the resulting model performs well across a wide spectrum of "harder" metrics such as generalization to out-of-distribution data and resilience to noise. Across evaluations on varying architectures and data sets, we find that pruned networks effectively approximate the unpruned model, however, the prune ratio at which pruned networks achieve commensurate performance varies significantly across tasks. These results call into question the extent of \emph{genuine} overparameterization in deep learning and raise concerns about the practicability of deploying pruned networks, specifically in the context of safety-critical systems, unless they are widely evaluated beyond test accuracy to reliably predict their performance. Our code is available at https://github.com/lucaslie/torchprune.

연구 동기 및 목표

성능을 유지하면서 매개변수를 감소시키기 위한 가지치기를 정당화하려고 하지만, 테스트 정확도를 가지치기의 유일한 기준으로 삼는 것이 충분한지 의문을 제기한다.
가지치된 네트워크와 원래 가지치지 않은 부모 네트워크를 비교하기 위한 기능적(distance) 지표를 도입한다.
가지치 가능성을 명목 성능을 보존하는 최대 가지치기 비율로 정의하고, 작업 및 분포 간 변화를 연구한다.
가지치기가 분포 변화, 노이즈 및 분포 밖 데이터에 대한 강건성에 어떤 영향을 미치는지 조사한다.
분포 변화 하에서 및 재학습 중 가지치기에 대한 실용적인 지침을 제공한다.

제안 방법

데이터셋(CIFAR-10, ImageNet, PASCAL VOC)과 아키텍처(ResNet, WRN, DenseNet, VGG) 전반에 걸쳐 반복적 가지치기-재학습 파이프라인(비구조적 및 구조적 가지치기)을 사용한다.
가지치기 방법을 비교한다: 가중치 임계값 설정(WT), SiPP, 필터 임계값 설정(FT), 및 증명 가능한 필터 가지치기(PFP).
정보 특징과 잡음 유사성을 기반으로 한 새로운 거리 지표를 사용해 기능적 유사성을 형식화한다.
분포 변화(명목 데이터에 대한 대비 분포 밖 데이터) 하에서 강건성을 정량화하기 위해 가지치 가능성과 초과 손실을 정의한다.
특징 중요도 규범 및 계층별 가지치기 예산 전반에 걸쳐 평가하고, CIFAR10-C, ImageNet-C 등의 손상 및 노이즈 하에서의 성능을 평가한다.
PruneRetrain(Algorithm 1) 및 실험 설정에 대한 알고리즘 설명을 제공한다.

실험 결과

연구 질문

RQ1가지치된 네트워크가 작업과 가지치 비율에 따라 원래 가지치지 않은 부모 네트워크와 기능적으로 유사하게 남아 있는가?
RQ2가지치 가능성은 작업, 아키텍처 및 데이터 분포에 따라 어떻게 달라지는가?
RQ3가지치 가능 모델이 명목 테스트 정확도를 유지하는 반면 분포 밖 데이터나 노이즈가 있는 데이터에서 악화되는가?
RQ4가지치 지침이 분포 변화에 대응하여 안전에 중요한 실패를 피할 수 있도록 제시될 수 있는가?

주요 결과

가지치된 모델은 비압축된 부모와 기능적으로 유사하며, 다양한 가지치 비율에서 별도로 학습된 네트워크와 구별될 수 있다.
가지치 가능성은 작업과 데이터 분포에 따라 크게 달라지며, 도전적인 추론 작업에서 종종 더 낮다.
가지는치된 네트워크는 명목 정확도가 비가지치 모델과 일치하더라도 분포 변화 및 노이즈에 더 취약해지는 경향이 있다.
분포 밖 데이터에서의 성능은 명목 테스트 정확도만으로 추정할 수 없으며 배포 시 안전성 문제를 제기한다.
가지치 지침은 분포 변화가 발생하기 쉬운 경우 가지치를 피하고, 강건성 손실을 완화하기 위해 데이터 증가나 강건한 학습을 사용하는 것을 제안한다.
본 연구는 가지치 가능성을 통해 과다 매개화를 측정하는 프레임워크를 제공하고, 테스트 정확도 이상의 작업별 평가를 권장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.