[论文解读] GAN Compression: Efficient Architectures for Interactive Conditional GANs
本文提出 GAN Compression,一种通用框架,通过结合中间特征的知识蒸馏与参数共享的神经架构搜索,显著降低条件生成对抗网络(conditional GANs)的推理计算量与模型大小。该方法在 Pix2pix、CycleGAN、GauGAN 和 MUNIT 上实现 9–29× 的计算量减少,且不损失图像质量,使边缘设备上的交互式部署成为可能。
Conditional Generative Adversarial Networks (cGANs) have enabled controllable image synthesis for many vision and graphics applications. However, recent cGANs are 1-2 orders of magnitude more compute-intensive than modern recognition CNNs. For example, GauGAN consumes 281G MACs per image, compared to 0.44G MACs for MobileNet-v3, making it difficult for interactive deployment. In this work, we propose a general-purpose compression framework for reducing the inference time and model size of the generator in cGANs. Directly applying existing compression methods yields poor performance due to the difficulty of GAN training and the differences in generator architectures. We address these challenges in two ways. First, to stabilize GAN training, we transfer knowledge of multiple intermediate representations of the original model to its compressed model and unify unpaired and paired learning. Second, instead of reusing existing CNN designs, our method finds efficient architectures via neural architecture search. To accelerate the search process, we decouple the model training and search via weight sharing. Experiments demonstrate the effectiveness of our method across different supervision settings, network architectures, and learning methods. Without losing image quality, we reduce the computation of CycleGAN by 21x, Pix2pix by 12x, MUNIT by 29x, and GauGAN by 9x, paving the way for interactive image synthesis.
研究动机与目标
- 解决条件 GAN 推理计算成本过高的问题,该问题限制了其在移动设备和 VR 头戴设备等资源受限边缘设备上的部署。
- 克服压缩过程中 GAN 训练的不稳定性,特别是在无配对设置下,以及因架构差异导致现有卷积神经网络(CNN)压缩技术无法复用的问题。
- 开发一种适用于多种条件 GAN 架构、监督设置(配对/无配对)及学习目标的通用压缩框架。
- 在保持高保真图像生成能力的前提下,显著降低乘加操作(MACs)数量与模型大小,以支持交互式应用。
提出的方法
- 通过将预训练教师生成器的中间特征表示蒸馏到压缩的学生生成器中,应用知识蒸馏,稳定训练过程并提升性能。
- 通过使用教师模型输出生成合成目标图像,将无配对学习转化为伪配对学习,从而在无配对设置下实现更有效的蒸馏。
- 采用神经架构搜索(NAS)结合一次训练全部架构(OFA)策略,发现高效的生成器架构,其中单个网络包含所有候选通道配置。
- 通过 OFA 框架中的参数共享,将架构搜索与训练解耦,实现无需重新训练即可快速评估子网络性能。
- 引入卷积分解(深度可分离卷积)以进一步降低计算量,同时保持性能。
- 对搜索空间应用自动通道剪枝与卷积分解,以优化最终压缩架构。
实验结果
研究问题
- RQ1在压缩条件 GAN 时,跨中间特征的知识蒸馏是否能稳定训练并提升性能?
- RQ2将无配对 GAN 训练转化为伪配对学习是否能提升压缩模型的质量,尤其是在小规模架构中?
- RQ3结合参数共享的神经架构搜索能否有效发现计算量更低且保持图像保真度的高效生成器架构?
- RQ4与现有蒸馏与压缩基线相比,该方法在计算量减少与视觉质量方面表现如何?
- RQ5该框架在不同条件 GAN 模型、架构与监督设置(配对 vs. 无配对)下的泛化能力如何?
主要发现
- 所提出的 GAN Compression 方法在 CycleGAN 上将推理计算量降低 21 倍(从 56.8G 降至 2.67G MACs),在 Pix2pix 上降低 12 倍(56.8G 降至 4.81G MACs),在 MUNIT 上降低 29 倍(从 16.8G 降至 0.58G MACs),在 GauGAN 上降低 9 倍(281G 降至 31.7G MACs),且图像质量无损失。
- 在 COCO-Stuff 数据集上应用该方法时,GauGAN 的计算量减少 5.4 倍,证明了其在标准基准之外的泛化能力。
- 通过使用教师模型生成的伪配对数据,该方法在性能上优于朴素的无配对训练,尤其在小型模型中表现更优,FID 从 67.45 降低至 61.53。
- 通过在 ResBlocks 中引入卷积分解构建的 MobileNet 风格架构,相比原始 ResNet 生成器,计算成本降低 50%,同时保持或提升性能。
- 中间特征蒸馏方法优于仅输出蒸馏与其他基线:在 Cityscapes 数据集上,该方法在 5.66G MACs 下实现 40.77 mIoU,优于仅输出蒸馏的 35.67 和 Yim 等人方法的 36.69。
- Fast GAN Compression 变体相比原始方法,训练时间减少 1.7–3.7 倍,搜索时间减少 3.5–12 倍,显著提升了效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。