[论文解读] Cross-domain Correspondence Learning for Exemplar-based Image Translation
本文提出 CoCosNet,一种弱监督框架,通过将输入(如语义分割掩码、边缘图)对齐到中间特征空间,联合学习跨域对应关系与基于样本的图像转换。通过利用来自样本图像的语义对齐补丁,该方法生成具有细粒度风格一致性的照片级真实感输出,在图像质量和语义保真度方面优于当前最先进方法。
We present a general framework for exemplar-based image translation, which synthesizes a photo-realistic image from the input in a distinct domain (e.g., semantic segmentation mask, or edge map, or pose keypoints), given an exemplar image. The output has the style (e.g., color, texture) in consistency with the semantically corresponding objects in the exemplar. We propose to jointly learn the crossdomain correspondence and the image translation, where both tasks facilitate each other and thus can be learned with weak supervision. The images from distinct domains are first aligned to an intermediate domain where dense correspondence is established. Then, the network synthesizes images based on the appearance of semantically corresponding patches in the exemplar. We demonstrate the effectiveness of our approach in several image translation tasks. Our method is superior to state-of-the-art methods in terms of image quality significantly, with the image style faithful to the exemplar with semantic consistency. Moreover, we show the utility of our method for several applications
研究动机与目标
- 解决在无显式对应标注的情况下,学习不同领域图像(如语义分割掩码到照片)之间密集语义跨域对应关系的挑战。
- 通过利用来自样本图像的空间感知外观迁移,实现在实例级别风格保真度的基于样本的图像转换。
- 开发一个统一框架,联合优化对应关系与转换过程,在弱监督下进行,避免依赖会丢失局部纹理细节的全局风格向量。
- 通过隐式学习的密集对应关系,实现语义图像编辑和化妆迁移等新应用。
- 克服先前方法依赖全局风格编码或特定任务设计的局限性,提出一种通用、端到端可训练的解决方案。
提出的方法
- 提出双流网络架构:跨域对应网络与转换网络,通过共享监督实现端到端训练。
- 将来自源域(如分割图、边缘图、姿态图)的输入图像与样本图像映射到共享的中间特征空间,以可靠建立密集对应关系。
- 在转换网络中使用空间可变的归一化块,通过基于学习到的语义对应关系对样本图像进行变形,合成输出图像。
- 应用多组件损失函数:领域对齐损失($\mathcal{L}_{\text{domain}}^{\ell_1}$)、特征重建损失($\mathcal{L}_{\text{feat}}$)、感知损失($\mathcal{L}_{\text{perc}}$)、上下文损失($\mathcal{L}_{\text{context}}$)和对应关系正则化损失($\mathcal{L}_{\text{reg}}$),以稳定训练并提升对齐效果。
- 通过弱监督实现对应关系与转换的联合训练,两个任务相互促进,无需真实对应关系或合成目标。
- 通过学习到的密集特征实现稀疏对应关系预测,使模型能泛化至信息量较低的领域,如边缘图或关键点热图。
实验结果
研究问题
- RQ1在无真实对应关系的弱监督设置下,能否有效学习密集跨域对应关系?
- RQ2与分别训练相比,联合学习对应关系与图像转换是否能提升基于样本的图像合成质量与语义一致性?
- RQ3隐式学习到的对应关系能否支持语义图像编辑和化妆迁移等实际应用?
- RQ4各个损失组件在对应关系与转换任务中的鲁棒性与性能贡献如何?
- RQ5与全局风格编码方法相比,该方法在实例级别上对样本图像的细粒度纹理与色彩细节保留程度如何?
主要发现
- 完整 CoCosNet 模型在相同评估协议下取得 14.3 的 Fréchet Inception Distance (FID),显著优于次优方法(21.1),在图像质量方面表现更优。
- 模型在语义一致性得分上达到 0.949,风格相关性得分达到 0.977(颜色)/ 0.958(纹理),表明在全局与局部层面均高度忠实于样本图像的外观。
- 消融实验表明,若移除领域对齐损失($\mathcal{L}_{\text{domain}}^{\ell_1}$),将导致过度平滑的变形并使对应关系学习失败,凸显其关键作用。
- 对应关系正则化损失($\mathcal{L}_{\text{reg}}$)对防止错误对齐(如人脸误匹配至头发)至关重要,其缺失会导致语义不一致的变形,尽管输出外观合理。
- 用户研究表明,CoCosNet 在 84.2% 的情况下图像质量排名第一,在 93.8% 的情况下风格相关性排名第一,证实其显著的感知优越性。
- 该方法即使在边缘图等稀疏输入下也能成功建立有意义的跨域对应关系,证明其对低语义内容领域的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。