[論文レビュー] AutoGAN-Distiller: Searching to Compress Generative Adversarial Networks
AutoGAN-Distiller (AGD) は GAN アーキテクチャを探索・蒸留して CycleGAN と ESRGAN を圧縮し、はるかに小さなモデルを実現しつつ、競争力のあるまたは改善された品質を達成します。
The compression of Generative Adversarial Networks (GANs) has lately drawn attention, due to the increasing demand for deploying GANs into mobile devices for numerous applications such as image translation, enhancement and editing. However, compared to the substantial efforts to compressing other deep models, the research on compressing GANs (usually the generators) remains at its infancy stage. Existing GAN compression algorithms are limited to handling specific GAN architectures and losses. Inspired by the recent success of AutoML in deep compression, we introduce AutoML to GAN compression and develop an AutoGAN-Distiller (AGD) framework. Starting with a specifically designed efficient search space, AGD performs an end-to-end discovery for new efficient generators, given the target computational resource constraints. The search is guided by the original GAN model via knowledge distillation, therefore fulfilling the compression. AGD is fully automatic, standalone (i.e., needing no trained discriminators), and generically applicable to various GAN models. We evaluate AGD in two representative GAN tasks: image translation and super resolution. Without bells and whistles, AGD yields remarkably lightweight yet more competitive compressed models, that largely outperform existing alternatives. Our codes and pretrained models are available at https://github.com/TAMU-VITA/AGD.
研究の動機と目的
- 翻訳品質を犠牲にすることなく、生成的対向ネットワークの圧縮の必要性を動機づける。
- さまざまなペアなし画像翻訳タスクに対して効率的なジェネレータブロックを発見するためのアーキテクチャ検索フレームワークを提案する。
- CycleGAN の派生と ESRGAN における AGD の有効性を、量子化構成を含めて実証する。
- 最先端のベースラインと比較した視覚化および定量的比較を提供する。
提案手法
- 各タスクごとに統一された探索空間内で生成器アーキテクチャを独立して探索する。
- タスク固有のブロックとヘッドを形成するために、さまざまな演算子と幅を利用する。
- ペアなし画像翻訳タスク(horse2zebra、zebra2horse、summer2winter、winter2summer)および ESRGAN ベースの超解像での評価。
- 探索されたアーキテクチャに8ビット量子化を適用して、メモリと性能のトレードオフを評価する。
- CEC および PSNR 指向の SR モデル(VDSR、ESRGAN)に対する定量的ベンチマーク。
- エッジのシャープさとディテールの定性的改善を示す結果の可視化。
実験結果
リサーチクエスチョン
- RQ1AGD は視覚品質を維持しつつ、ペアなし画像翻訳タスクの CycleGAN アーキテクチャをどの程度効果的に圧縮できるか?
- RQ2AGD 派生の PSNR 指向 ESRGAN アーキテクチャは、FLOPs およびメモリを大幅に削減しつつ競争力のある PSNR を達成できるか?
- RQ3AGD 発見アーキテクチャへの8ビット量子化適用の利点とトレードオフは何か?
主な発見
| モデル | GFLOPs (256x256) | メモリ (MB) | PSNR | Set5 | Set14 | BSD100 | Urban100 |
|---|---|---|---|---|---|---|---|
| ESRGAN | 1176.61 | 66.8 | 32.73 | 28.99 | 27.85 | 27.03 | - |
| VDSR | 699.36 | 2.67 | 31.35 | 28.01 | 27.29 | 25.18 | - |
| AGD | 110.9 | 1.8 | 31.79 | 28.36 | 27.41 | 25.55 | - |
- AGD はタスクを横断して多様な演算子セットを発見し、広い幅がヘッドやステムの前半に現れる。
- AGD 圧縮 CycleGAN アーキテクチャは、ベースラインと比較して視覚品質(エッジのシャープさやディテールの多さ)を向上させる。
- 量子化された AGD アーキテクチャは、視覚化の品質を概ね維持しつつ、CEC 比で8.1x–10.1x の大幅なメモリ削減を実現する。
- PSNR 指向 ESRGAN では、AGD がデータセット全体で最大0.44 PSNRの改善を達成し、ESRGAN ベースラインと比較して約84.1% 少ない FLOPs と約32.6% 小さなモデルサイズ。
- SR ベンチマークでは、AGD は 110.9 GFLOPs と 1.8 MB メモリで PSNR は Set5: 31.79、Set14: 28.36、BSD100: 27.41、Urban100: 25.55。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。