[论文解读] Image Synthesis with a Single (Robust) Classifier
该论文表明,通过梯度上升最大化类别分数,在没有任务特定模型的情况下,对抗性鲁棒分类器可以作为多种图像合成任务的通用工具。它证明了通过单一鲁棒分类器,实现生成、修复、翻译、超分辨率和交互式操控。
We show that the basic classification framework alone can be used to tackle some of the most challenging tasks in image synthesis. In contrast to other state-of-the-art approaches, the toolkit we develop is rather minimal: it uses a single, off-the-shelf classifier for all these tasks. The crux of our approach is that we train this classifier to be adversarially robust. It turns out that adversarial robustness is precisely what we need to directly manipulate salient features of the input. Overall, our findings demonstrate the utility of robustness in the broader machine learning context. Code and models for our experiments can be found at https://git.io/robust-apps.
研究动机与目标
- 证明单一鲁棒分类器可以处理除分类之外的多样化图像合成任务。
- 证明在鲁棒模型上最大化类别分数能够产生真实且语义上有意义的输入。
- 凸显对抗鲁棒性作为跨任务语义图像操作的原始工具的作用。
- 在大规模数据集上探索这一最小工具包的极限与可扩展性。
提出的方法
- 在每个数据集上训练具备对抗鲁棒性的 ResNet-50 分类器。
- 通过投影梯度下降(PGD)从类别条件种子开始,对目标类别分数进行梯度上升以生成样本。
- 对于修复,在污染区域外部的变化受到惩罚的同时,优化图像以最大化真实类别分数。
- 对于图像到图像翻译,在源域/目标域上训练分类器并通过最大化目标类别分数进行翻译。
- 对于超分辨率,在限制对上采样的低分辨率输入的变化的同时,最大化高层次类别分数。
- 对于交互式操控,可选择性地最大化表示层的激活以通过 PGD 绘制特定特征。
- 讨论种子分布、鲁棒性设置和所需的最小调参。
实验结果
研究问题
- RQ1单个鲁棒分类器能否作为多种图像合成任务的通用原语?
- RQ2基于梯度的鲁棒模型操作在质量与多样性方面,与特定任务的生成方法相比有何差异?
- RQ3将类别分数最大化用于生成、修复、翻译和超分辨率的能力与局限性如何?
- RQ4鲁棒性如何影响合成图像的语义内容和可控性?
主要发现
| 数据集 | 训练数据 | BigGAN | WGAN-GP | Our approach | |
|---|---|---|---|---|---|
| CIFAR-10 | CIFAR-10 | 11.2 ± 0.2 | 9.22 | 8.4 ± 0.1 | 7.5 ± 0.1 |
| ImageNet | ImageNet 4 | 331.9 ± 4.9 | 233.1 ± 1 | 11.6 | 259.0 ± 4 |
- 一个单一的鲁棒分类器可以使用定向的 PGD 生成多类别的真实且多样的图像。
- 在 CIFAR-10 上,所提出方法的 Inception Score 为 8.4±0.1(相比 BigGAN 的 11.2±0.2 和 WGAN-GP 的 9.22)。
- 在 ImageNet(全数据)上,该方法在此设定中达到 Inception Score 259.0±4,优于 BigGAN 的 331.9±4.9 和 WGAN-GP 的 233.1±1。
- 该方法产生感知上合理的修复结果和有意义的图像到图像翻译(如马↔斑马,苹果↔橙子,夏↔冬)。
- 通过鲁棒模型梯度实现的超分辨率可产生更清晰、语义上有意义的重建,在受限的 ImageNet 任务中在 PSNR 上优于简单上采样(21.53 对 21.30)。
- 通过优化鲁棒模型的类别分数或激活,可以构建交互式草图到图像和特征绘画工具。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。