[논문 리뷰] What Do Compressed Deep Neural Networks Forget?
이 논문은 프루닝과 양자화가 상위 정확도에 국한되지 않고 분류기 성능에 어떤 영향을 미치는지 평가하며, 압축에 의해 불균형적으로 영향을 받는 소수의 사례들(PIEs)과 방법들의 차이가 불평등한 영향을 보이는 방식을 밝혀낸다.
Deep neural network pruning and quantization techniques have demonstrated it is possible to achieve high levels of compression with surprisingly little degradation to test set accuracy. However, this measure of performance conceals significant differences in how different classes and images are impacted by model compression techniques. We find that models with radically different numbers of weights have comparable top-line performance metrics but diverge considerably in behavior on a narrow subset of the dataset. This small subset of data points, which we term Pruning Identified Exemplars (PIEs) are systematically more impacted by the introduction of sparsity. Compression disproportionately impacts model performance on the underrepresented long-tail of the data distribution. PIEs over-index on atypical or noisy images that are far more challenging for both humans and algorithms to classify. Our work provides intuition into the role of capacity in deep neural networks and the trade-offs incurred by compression. An understanding of this disparate impact is critical given the widespread deployment of compressed models in the wild.
연구 동기 및 목표
- 네트워크 압축(pruning 및 quantization)이 일반화 능력에 미치는 영향과 그 정도를 정의하고 정량화한다.
- 특정 클래스나 EXEMPLAR가 압축에 의해 불균형적으로 영향을 받는지 식별한다.
- 압축 모델의 불평등한 위해를 감사하고 트레이드오프를 정량화하기 위한 형식적 프레임워크를 개발한다.
- 압축이 분포 변화 및 잡음(robustness)에 미치는 상호 작용을 조사한다.
제안 방법
- 압축 하에서 상대 클래스 재현율을 기준 정확도와 비교하여 클래스 수준의 영향을 측정하는 프레임워크를 정의한다.
- 통계적 검정(Welch의 t-검정)을 위한 각 압축 설정에 대해 K개의 모델 집단을 학습시켜 클래스별 정확도 분포를 만든다.
- 전반적 정확도 변화에 대한 보정을 위해 클래스별 상대 재현 편차를 계산한다.
- Pruning Identified Exemplars (PIEs)를 프루닝된 모델과 비프루닝 모델의 예측이 모드레이블(label)에서 서로 다를 때의 이미지로 정의한다.
- CIFAR-10, CelebA, 및 ImageNet에서 다양한 아키텍처와 다양한 희소도 수준으로 프루닝과 세 가지 사후 학습 양자화 방식들을 평가한다.
실험 결과
연구 질문
- RQ1압축 방법이 전체 정확도 변화 이외에 일부 클래스에 더 큰 영향을 미치는가?
- RQ2PIEs는 무엇이며 비-PIEs에 비해 어떤 특징을 보이는가?
- RQ3압축은 분포 변화 및 잡음에 대한 강건성에 어떤 영향을 미치는가?
- RQ4양자화가 프루닝에 비해 작업 간 불평등한 해를 더 적게 유발하는가?
주요 결과
| Fraction Pruned | Top-1 | Top-5 | Count Signif Classes | Count PIEs |
|---|---|---|---|---|
| 0 | 76.68 | 93.25 | - | - |
| 30 | 76.46 | 93.17 | 68 | 1,819 |
| 50 | 75.87 | 92.86 | 170 | 2,193 |
| 70 | 75.02 | 92.43 | 372 | 3,073 |
| 90 | 72.60 | 91.10 | 637 | 5,136 |
| Quantization | - | - | - | - |
| float16 | 76.65 | 93.25 | 58 | 2,019 |
| dynamic range int8 | 76.10 | 92.94 | 144 | 2,193 |
| fixed-point int8 | 76.46 | 93.16 | 119 | 2,093 |
- 상위 정확도가 압축 하에서 클래스 간 비균일한 영향을 완전히 반영하지 못한다.
- 프루닝 하에서 재현율이 통계적으로 유의하게 저하되는 클래스의 소수 집합이 존재하며 희소도가 증가할수록 더 커진다(예: 50% 희소도에서 170개의 유의한 클래스; 70%에서 372개).
- PIEs는 인공 및 인간 분류 모두에 불균형적으로 더 어려운 사례이며, PIE의 비율은 희소도가 높아질수록 증가한다(예: ImageNet에서 90% 희소도 시 PIE 비율이 10.27%).
- 프루닝된 모델은 자연적 적대적 이미지 및 잡음에 대한 민감도가 더 크며, 희소도가 증가할수록 이 현상은 더욱 두드러진다.
- 양자화는 프루닝에 비해 불균일한 위해가 덜 발생하는 경향이 있다; 가장 공격적인 int8 고정소수점 양자화가 더 많은 클래스를 영향을 받게 하지만 중간 수준의 프루닝보다 상대적으로는 덜하다.
- 비균일한 영향은 작업의 난이도에 따라 달라지며 CIFAR-10은 ImageNet에 비해 영향을 받는 클래스가 적어 과적합 및 작업 난이도가 불균일한 영향을 조절하는 것으로 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.