[논문 리뷰] Compressing GANs using Knowledge Distillation
이 논문은 지식 증류를 통해 과잉 매개변수화된 GAN을 압축하는 것을 보여 주며, MNIST, CIFAR-10, Celeb-A에서 처음부터 학습된 동등 규모의 GAN과 거의 일치하거나 이를 능가하는 작은 학생 GAN들을 만들어 상당한 압축 비율을 달성한다.
Generative Adversarial Networks (GANs) have been used in several machine learning tasks such as domain transfer, super resolution, and synthetic data generation. State-of-the-art GANs often use tens of millions of parameters, making them expensive to deploy for applications in low SWAP (size, weight, and power) hardware, such as mobile devices, and for applications with real time capabilities. There has been no work found to reduce the number of parameters used in GANs. Therefore, we propose a method to compress GANs using knowledge distillation techniques, in which a smaller "student" GAN learns to mimic a larger "teacher" GAN. We show that the distillation methods used on MNIST, CIFAR-10, and Celeb-A datasets can compress teacher GANs at ratios of 1669:1, 58:1, and 87:1, respectively, while retaining the quality of the generated image. From our experiments, we observe a qualitative limit for GAN's compression. Moreover, we observe that, with a fixed parameter budget, compressed GANs outperform GANs trained using standard training methods. We conjecture that this is partially owing to the optimization landscape of over-parameterized GANs which allows efficient training using alternating gradient descent. Thus, training an over-parameterized GAN followed by our proposed compression scheme provides a high quality generative model with a small number of parameters.
연구 동기 및 목표
- 저전력, 소형 폼팩터 하드웨어와 실시간 응용을 위한 대형 GAN의 계산 부담을 동기 부여하고 해결한다.
- 생성자 네트워크의 압축과 이미지 품질 유지에 초점을 맞춘 GAN용 지식 증류를 도입한다.
- IS와 FID를 품질 지표로 사용하여 MNIST, CIFAR-10, Celeb-A에서 압축을 실증적으로 평가한다.
- 성공적인 증류에서 과잉 매개화가 차지하는 역할과 GAN 압축의 한계를 분석한다.
제안 방법
- 큰 과잉 매개변수 GAN(teacher)이 더 작은 GAN(student)을 안내하는 교사-학생 프레임워크를 사용한다.
- 학생에 대한 두 가지 학습 방식을 채택한다: (i) 교사 출력과의 픽셀 단위 거리를 최소화하는 MSE 손실; (ii) GAN 목표와 MSE 항을 결합하여 학생 출력이 교사와 일치하도록 하는 결합 손실.
- 여러 크기의 교사 네트워크를 학습시키고 Inception Score와 FID로 최적의 것을 선택한다.
- 깊이 스케일 계수 d를 통해 모델 크기를 제어하고, 교사 크기와 대응하는 매개변수 수를 탐색한다.
- Inception Score, Frechet Inception Distance를 사용하여 압축을 평가하고, 모호도(블러)를 위해 Variance of Laplacian을 사용한다.
실험 결과
연구 질문
- RQ1교사 GAN의 생성 기능을 latent 공간 전체에서 상당히 더 적은 매개변수로 학생 GAN이 재현할 수 있는가?
- RQ2MNIST, CIFAR-10, Celeb-A에서 심각한 품질 저하 없이 달성 가능한 압축 비율은 어느 정도인가?
- RQ3지식 증류가 IS, FID, 선명도 측면에서 똑같은 규모의 GAN을 처음부터 학습시키는 것보다 이점이 있는가?
- RQ4복잡도가 다른 데이터셋에서 GAN 압축의 시각적 및 정량적 한계는 무엇인가?
- RQ5공동 GAN+MSE 손실이 MSE만 사용할 때보다 압축 품질에 어떤 차이가 있으며 특히 이미지 선명도에 미치는 영향은 어떤가?
주요 결과
| GAN Size (d) | 매개변수 수 | MNIST - 비율 | MNIST IS (Stu.) | MNIST IS (Reg.) | CIFAR-10 - 비율 | CIFAR-10 FID (Stu.) | CIFAR-10 FID (Reg.) | Celeb-A - 비율 | Celeb-A FID (Stu.) | Celeb-A FID (Reg.) |
|---|---|---|---|---|---|---|---|---|---|---|
| 2 | 28,351 | 1669:1 | 5.80 | 1.86 | 126:1 | 11.76 | 38.72 | 446:1 | 12.15 | 45.49 |
| 4 | 62,077 | 762:1 | 6.41 | 3.63 | 58:1 | 11.00 | 14.28 | 204:1 | 10.97 | 18.72 |
| 8 | 145,657 | 325:1 | 6.60 | 4.73 | 25:1 | 9.57 | 11.85 | 87:1 | 8.78 | 11.06 |
| 16 | 377,329 | 125:1 | 6.83 | 5.07 | 9:1 | 8.39 | 9.90 | 34:1 | 6.29 | 9.14 |
| 32 | 1,098,721 | 43:1 | 6.87 | 6.08 | 3:1 | 7.80 | 7.86 | 12:1 | 4.84 | 5.05 |
| 48 | 2,164,177 | — | — | — | 2:1 | 7.58 | — | 6:1 | 4.54 | — |
| 64 | 3,573,697 | — | 6.93 | 6.51 | — | — | — | — | — | — |
| 128 | 12,652,417 | 4:1 | 6.97 | 6.63 | — | — | — | — | — | — |
- 학생 GAN은 모든 데이터셋에서 같은 소형 GAN 일반 GAN보다 일관되게 더 높은 성능을 보인다.
- MNIST에서 압축은 1,669:1에 도달하며 교사 IS의 83%를 보존한다.
- CIFAR-10과 Celeb-A에서 압축은 각각 58:1 및 87:1의 큰 비율을 달성하고 FID 점수도 경쟁력 있다.
- 압축된 학생은 잠재 공간 전반에 걸쳐 교사의 생성 함수를 근사하며 지식 전달이 메모화가 아님을 시사한다.
- 공동 손실은 FID를 약간 개선하고 MSE만의 학습보다 현저히 선명한 이미지를 제공하지만, 더 복잡한 데이터에서 높은 압축 시 일부 블러가 남는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.