[论文解读] A Unified Feature Disentangler for Multi-Domain Image Translation and Manipulation
本文提出 UFDN,一个统一的编码器-生成框架,学习跨多个域的领域不变潜在表示,以实现多域图像翻译、操控和无监督领域自适应。
We present a novel and unified deep learning framework which is capable of learning domain-invariant representation from data across multiple domains. Realized by adversarial training with additional ability to exploit domain-specific information, the proposed network is able to perform continuous cross-domain image translation and manipulation, and produces desirable output images accordingly. In addition, the resulting feature representation exhibits superior performance of unsupervised domain adaptation, which also verifies the effectiveness of the proposed model in learning disentangled features for describing cross-domain data.
研究动机与目标
- 激发学习一个解耦的、跨越多个数据域的领域不变表示。
- 在一个统一框架内实现多域图像到图像的翻译与操控。
- 利用对抗训练在解耦领域信息的同时保持数据恢复能力。
- 展示所学习表示在无监督领域自适应中的有效性。
提出的方法
- 提出一个统一特征解耦网络(UFDN),具有共享的编码器 E 和生成器 G,将来自多个域的图像映射到域不变潜在空间 z。
- 通过域判别器 D_v 将域信息解耦成域向量 v,并与 E 进行对抗训练。
- 通过将 z 与域向量一起输入 G 来重建和翻译图像,从而实现跨域合成。
- 使用像素空间判别器 D_x 提升真实感,并将合成图像分类到正确的域,强化解耦。
- 通过带有 VAE 风格的重构损失、在特征空间和像素空间的对抗损失,以及互信息风格的域分类损失 (L_cls) 来优化。
- 提供按定义的梯度交替更新 E、G、D_v 和 D_x 的训练动态。
实验结果
研究问题
- RQ1一个单一的统一模型能否在多个域之间学习域不变表示,而不仅仅是成对域之间?
- RQ2所学习的潜在表示是否支持在没有成对数据的情况下实现连续的多域翻译与操控?
- RQ3该方法是否在无监督领域自适应方面超越图像翻译带来好处?
- RQ4解耦如何影响翻译质量和领域自适应的性能?
主要发现
- UFDN 能实现跨草图、照片和绘画域的多域图像翻译,通过插值域向量实现连续域传输。
- UFDN 在某些指标(SSIM、MSE、PSNR)上,在 CelebA 基任务上表现与 E-CDRD 相当、甚至优于 StarGAN。
- 在数字的无监督域自适应中(MNIST/USPS/SVHN),UFDN 达到最先进或接近最先进的结果,例如 MNIST→USPS: 97.13% 准确率;SVHN→MNIST: 95.01% 准确率。
- t-SNE 可视化显示域不变表示按数字类别聚类而非按域聚类,表明解耦成功。
- 消融研究证实自监督解耦(域对抗 D_v)和像素空间对抗训练对于实现有效解耦和翻译的必要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。