[论文解读] Alias-Free Generative Adversarial Networks
本文将混叠识别为GAN生成器中纹理粘连的根本原因,并提出一种连续信号、无别名设计的 StyleGAN2(StyleGAN3),实现平移和旋转的等变性,匹配 StyleGAN2 的 FID,同时内部表征得到改进。
We observe that despite their hierarchical convolutional nature, the synthesis process of typical generative adversarial networks depends on absolute pixel coordinates in an unhealthy manner. This manifests itself as, e.g., detail appearing to be glued to image coordinates instead of the surfaces of depicted objects. We trace the root cause to careless signal processing that causes aliasing in the generator network. Interpreting all signals in the network as continuous, we derive generally applicable, small architectural changes that guarantee that unwanted information cannot leak into the hierarchical synthesis process. The resulting networks match the FID of StyleGAN2 but differ dramatically in their internal representations, and they are fully equivariant to translation and rotation even at subpixel scales. Our results pave the way for generative models better suited for video and animation.
研究动机与目标
- 解释混叠与边界效应如何在GAN生成器中导致纹理粘连。
- 开发一个连续域、无别名的生成架构,以实现对亚像素平移和旋转的等变性。
- 将 StyleGAN2 改造为无别名、连续等变的生成器(StyleGAN3),在最小化 FID 损失的同时保持性能。
- 证明无别名设计在不牺牲图像质量的前提下实现旋转与平移的等变性。
提出的方法
- 使用带带限信号和香农-奈奎斯特理论,在连续域中重新表述CNN信号处理。
- 识别并缓解两类混叠源:上采样滤波器和逐点非线性,通过高衰减滤波器和连续域低通滤波实现。
- 用边界扩展和窗函数 sinc(Kaiser)滤波器替换采样/填充,以抑制边界引起的坐标参考。
- 实现 StyleGAN2 生成器的多步重设计(包括傅里叶特征、带滤波的非线性以及旋转等变的1x1卷积),以实现连续等变性。
- 引入可配置的逐层滤波预算、阻带处理及逐图像傅里叶特征控制,以在各尺度上管理混叠。
- 通过使用1x1卷积和径向对称的下采样滤波(基于 jinc)提供旋转等变的生成器。
- 提出并验证对输入傅里叶特征的可学习仿射变换,以允许对每张图像的全局变换(平移/旋转)。
实验结果
研究问题
- RQ1是否可以消除GAN生成器中的混叠,以强制实现真正的亚像素平移和旋转等变性?
- RQ2将 StyleGAN2 转换为无别名、连续等变生成器需要哪些最小的架构和信号处理改动?
- RQ3无别名生成器(StyleGAN3)在 FID 和显式等变性指标方面与 StyleGAN2 相比如何?
- RQ4旋转等变性是否会损害图像质量,在哪些配置下可在可接受的 FID 下实现?
- RQ5哪些实际设计指南(滤波器、填充、层规格)能在不同数据集上实现稳定、可扩展的等变生成?
主要发现
| 数据集 | 配置 | FID↓ | EQ-T↑ | EQ-R↑ |
|---|---|---|---|---|
| FFHQ-U 70000 img, 1024 | StyleGAN2 | 3.79 | 15.89 | 10.79 |
| FFHQ-U 70000 img, 1024 | StyleGAN3-T | 3.67 | 61.69 | 13.95 |
| FFHQ-U 70000 img, 1024 | StyleGAN3-R | 3.66 | 64.78 | 47.64 |
| FFHQ 70000 img, 1024 | StyleGAN2 | 2.70 | 13.58 | 10.22 |
| FFHQ 70000 img, 1024 | StyleGAN3-T | 2.79 | 61.21 | 13.82 |
| FFHQ 70000 img, 1024 | StyleGAN3-R | 3.07 | 64.76 | 46.62 |
| Ablation (Main configuration) | (StyleGAN3-R final) | 4.50 | 66.65 | 40.48 |
- 无别名重新设计在不牺牲 StyleGAN2 FID 性能的情况下实现平移和旋转等变性。
- StyleGAN3-R 在保持竞争性 FID 的同时实现强烈的旋转等变性(EQ-R),具有高的 EQ-T 增益。
- 用扩展画布替代边界填充,并使用高衰减、窗函数 sinc 滤波器,显著提升平移等变性。
- 采用带滤波的非线性、上采样/下采样以及逐层停止带预算,减少因混叠引起的纹理粘连。
- 可以通过1x1卷积和径向对称的下采样滤波实现旋转等变,同时保持性能。
- 最终配置在平移方面的 EQ-T 值约为 60–70 dB,旋转方面为 40–48 dB,在多个数据集上具有竞争力的 FID。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。