QUICK REVIEW

[论文解读] StyleSpace Analysis: Disentangled Controls for StyleGAN Image Generation

Zongze Wu, Dani Lischinski|arXiv (Cornell University)|Nov 25, 2020

Generative Adversarial Networks and Image Synthesis参考文献 39被引用 42

一句话总结

本文分析 StyleSpace（StyleGAN2 的通道级风格参数），展示其高度解耦，提出发现局部风格通道的方法，并在具属性相关的解耦度量下演示对属性和真实图像的操控。

ABSTRACT

We explore and analyze the latent style space of StyleGAN2, a state-of-the-art architecture for image generation, using models pretrained on several different datasets. We first show that StyleSpace, the space of channel-wise style parameters, is significantly more disentangled than the other intermediate latent spaces explored by previous works. Next, we describe a method for discovering a large collection of style channels, each of which is shown to control a distinct visual attribute in a highly localized and disentangled manner. Third, we propose a simple method for identifying style channels that control a specific attribute, using a pretrained classifier or a small number of example images. Manipulation of visual attributes via these StyleSpace controls is shown to be better disentangled than via those proposed in previous works. To show this, we make use of a newly proposed Attribute Dependency metric. Finally, we demonstrate the applicability of StyleSpace controls to the manipulation of real images. Our findings pave the way to semantically meaningful and well-disentangled image manipulations via simple and intuitive interfaces.

研究动机与目标

在真实数据训练模型上，评估 StyleGAN2 潜在空间（Z、W、S）的解耦程度。
识别并刻画控制特定图像区域的局部活动 StyleSpace 通道。
开发无监督或最小监督的方法以检测控制属性和区域的通道。
提出属性依赖性指标以量化操控中的解耦程度。
证明 StyleSpace 控制在真实图像操控和反演策略中的适用性。

提出的方法

在 FFHQ 上使用 DCI 指标（解耦、完整性、信息量）对 Z、W 与 StyleSpace S 潜在空间进行定量比较，基于 40 个 CelebA 基础的分类器。
通过对 StyleSpace 通道进行反向传播，基于梯度图进行定位，阈值化梯度图并与语义图进行重叠度量以识别局部活跃的通道。
提出一个简单的示例法，通过将示例均值风格向量与总体统计量相比来探测控制目标属性的通道。
引入属性依赖性（AD）作为度量，量化对一个属性的操作如何影响其他属性，从而实现跨方法比较。
使用分割网络得到的语义图，在 FFHQ、LSUN Car 和 LSUN Bedroom 数据集上评估定位和属性控制。
讨论在 W、W+、S 空间的反演策略，提出一种混合方法（编码器初始化 + 稀疏潜在优化）用于真实图像操控。

实验结果

研究问题

RQ1StyleSpace S 相较于 StyleGAN2 在真实数据上训练的 Z、W 或 W+，是否具有更高的解耦性？
RQ2是否可以识别大量局部活动的 StyleSpace 通道，使其各自控制不同的视觉属性或区域？
RQ3少量正向示例是否足以可靠地识别控制目标属性的通道？
RQ4与 GANSpace 或 InterFaceGAN 相比，StyleSpace 是否在真实图像上实现更解耦的属性操作？
RQ5如何在 StyleSpace 中对真实图像进行反演和操控，以保持真实感和可控性？

主要发现

根据 FFHQ 的 DCI 指标，StyleSpace S 相较于 Z、W、W+ 显示出更高的解耦和完整性；信息量对所有方法均较高，但并不是区分因素。
在 FFHQ 模型中，有一大批局部活动的 StyleSpace 通道（共 1871 通道，占 6048 非 tRGB 通道中的一部分）控制局部语义区域，如头发、嘴部、衣服、床铺和车轮，具有高区域定位和解耦性。
只需约 10–30 个正向示例即可识别出控制目标属性的通道，在仅限局部活跃通道的情形下，Top-5 检测准确率可达到很高水平（部分情形超过 92%）。
基于 StyleSpace 的操控在属性依赖性（AD）上低于 GANSpace 或 InterFaceGAN，表明在真实图像中实现了更解耦的编辑。
在 S 空间进行真实图像反演时，重建保真度最好，且与简短的优化序列结合时，保持更自然的操控。
提出的梯度重叠和示例均值方法提供了实用且可扩展的手段，用于发现并排序可解释的局部 StyleSpace 通道，以用于语义编辑。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。