QUICK REVIEW

[논문 리뷰] GAN Compression: Efficient Architectures for Interactive Conditional GANs

Li, Muyang, Lin, Ji|arXiv (Cornell University)|2020. 03. 19.

Generative Adversarial Networks and Image Synthesis인용 수 18

한 줄 요약

이 논문은 지식 정복을 통한 중간 특징 간의 병합과 가중치 공유를 통한 신경망 아키텍처 탐색을 조합하여 조건부 GAN의 추론 계산량과 모델 크기를 줄이는 일반 목적의 프레임워크인 GAN Compression을 제안한다. Pix2pix, CycleGAN, GauGAN, MUNIT에서 이미지 품질을 손상시키지 않은 채 9-29배의 계산량 감소를 달성하여 엣지 디바이스에서의 인터랙티브 배포를 가능하게 한다.

ABSTRACT

Conditional Generative Adversarial Networks (cGANs) have enabled controllable image synthesis for many vision and graphics applications. However, recent cGANs are 1-2 orders of magnitude more compute-intensive than modern recognition CNNs. For example, GauGAN consumes 281G MACs per image, compared to 0.44G MACs for MobileNet-v3, making it difficult for interactive deployment. In this work, we propose a general-purpose compression framework for reducing the inference time and model size of the generator in cGANs. Directly applying existing compression methods yields poor performance due to the difficulty of GAN training and the differences in generator architectures. We address these challenges in two ways. First, to stabilize GAN training, we transfer knowledge of multiple intermediate representations of the original model to its compressed model and unify unpaired and paired learning. Second, instead of reusing existing CNN designs, our method finds efficient architectures via neural architecture search. To accelerate the search process, we decouple the model training and search via weight sharing. Experiments demonstrate the effectiveness of our method across different supervision settings, network architectures, and learning methods. Without losing image quality, we reduce the computation of CycleGAN by 21x, Pix2pix by 12x, MUNIT by 29x, and GauGAN by 9x, paving the way for interactive image synthesis.

연구 동기 및 목표

자원 제약이 있는 엣지 디바이스(예: 스마트폰, VR 헤드셋)에 조건부 GAN을 구현하는 데 제약이 되는 높은 계산 비용 문제를 해결한다.
특히 쌍이 없는 설정에서 발생하는 GAN 학습의 불안정성과 기존 CNN 압축 기법을 재사용하는 데 방해가 되는 아키텍처 차이를 극복한다.
다양한 조건부 GAN 아키텍처, 감독 설정(Paired/Unpaired), 학습 목표에 적용 가능한 일반 목적의 압축 프레임워크를 개발한다.
MACs와 모델 크기를 크게 줄이면서도 고해상도 이미지 생성 능력을 유지하여 인터랙티브 응용 분야에 적합한 성능을 달성한다.

제안 방법

기존에 훈련된 교사 생성기의 중간 특징 표현을 압축된 학생 생성기로 전이함으로써 지식 정복을 적용하여 훈련을 안정화시키고 성능을 향상시킨다.
교사 모델의 출력을 사용해 합성 타겟 이미지를 생성함으로써 쌍이 없는 학습을 가짜 쌍이 있는 학습으로 변환하여, 쌍이 없는 설정에서 더 효과적인 정복을 가능하게 한다.
일회성 전용(OFA) 훈련 전략을 사용한 신경망 아키텍처 탐색(NAS)을 통해 효율적인 생성기 아키텍처를 발견한다. 이 경우 단일 네트워크가 모든 후보 채널 구성 포함한다.
OFA 프레임워크에서 가중치 공유를 통해 아키텍처 탐색을 훈련에서 분리함으로써 재학습 없이도 하위 네트워크 성능을 신속하게 평가할 수 있다.
계산량을 추가로 줄이기 위해 복합 컨볼루션 분해(깊이 분리형 컨볼루션)를 통합한다. 성능 유지와 함께.
검색 공간에 자동 채널 감소 및 복합 컨볼루션 분해를 적용하여 최종적으로 압축된 아키텍처를 최적화한다.

실험 결과

연구 질문

RQ1조건부 GAN을 압축할 때 중간 특징 간의 지식 정복이 훈련 안정성과 성능 향상에 기여하는가?
RQ2교수 모델의 출력으로 생성된 가짜 쌍이 있는 데이터를 사용함으로써 쌍이 없는 GAN 학습을 개선할 수 있는가? 특히 소형 아키텍처에서 성능 향상이 두드러지는가?
RQ3가중치 공유를 통한 신경망 아키텍처 탐색이 MACs 감소를 동시에 달성하면서도 이미지 품질을 유지하는 효율적인 생성기 아키텍처를 효과적으로 발견할 수 있는가?
RQ4기존의 정복 및 압축 기반 기준 대비, 제안된 방법은 계산량 감소와 시각적 품질 측면에서 어떻게 비교되는가?
RQ5이 프레임워크는 다양한 조건부 GAN 모델, 아키텍처, 감독 설정(Paired 대비 Unpaired)에 얼마나 일반화되는가?

주요 결과

제안된 GAN Compression 방법은 CycleGAN에 대해 21배(56.8G에서 2.67G MACs로), Pix2pix에 대해 12배(56.8G에서 4.81G MACs로), MUNIT에 대해 29배(16.8G에서 0.58G MACs로), GauGAN에 대해 9배(281G에서 31.7G MACs로)의 추론 계산량 감소를 달성했으며, 이미지 품질에 영향을 주지 않았다.
COCO-Stuff 데이터셋에 적용했을 때 GauGAN에서 5.4배의 계산량 감소를 달성하여 표준 벤치마크를 초월한 일반화 능력을 입증했다.
교사 모델에서 생성한 가짜 쌍이 있는 데이터를 사용함으로써, 단순한 쌍이 없는 학습보다 성능 향상을 이룰 수 있었으며, 특히 소형 모델에서 FID를 67.45에서 61.53으로 감소시켰다.
ResBlocks 내에서 복합 컨볼루션 분해를 통해 생성된 MobileNet 스타일 아키텍처는 원본 ResNet 생성기 대비 계산 비용을 50% 감소시켰으며, 성능은 유지하거나 향상시켰다.
중간 특징 정복 방법은 출력 전용 정복 및 다른 기준 방법보다 우수한 성능을 보였다: Cityscapes에서 5.66G MACs에서 40.77 mIoU를 달성했으며, 출력 전용 정복은 35.67, Yim et al. 정복은 36.69를 기록했다.
빠른 GAN Compression 변형은 원본 방법 대비 훈련 시간을 1.7–3.7배, 탐색 시간을 3.5–12배 단축시켜 효율성 향상을 크게 이룩했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.