QUICK REVIEW

[论文解读] Unpaired Image-to-Image Translation via a Self-Supervised Semantic Bridge

Jiaming Liu, Felix Petersen|arXiv (Cornell University)|Feb 18, 2026

Generative Adversarial Networks and Image Synthesis被引用 0

一句话总结

本论文提出 SSB，一种自监督语义桥，通过学习自监督编码器得到的共享、保持几何的潜在空间来对齐域，从而实现无配对的图像到图像翻译，支持 MRI–CT 翻译和自然图像编辑，无需跨域监督。

ABSTRACT

Adversarial diffusion and diffusion-inversion methods have advanced unpaired image-to-image translation, but each faces key limitations. Adversarial approaches require target-domain adversarial loss during training, which can limit generalization to unseen data, while diffusion-inversion methods often produce low-fidelity translations due to imperfect inversion into noise-latent representations. In this work, we propose the Self-Supervised Semantic Bridge (SSB), a versatile framework that integrates external semantic priors into diffusion bridge models to enable spatially faithful translation without cross-domain supervision. Our key idea is to leverage self-supervised visual encoders to learn representations that are invariant to appearance changes but capture geometric structure, forming a shared latent space that conditions the diffusion bridges. Extensive experiments show that SSB outperforms strong prior methods for challenging medical image synthesis in both in-domain and out-of-domain settings, and extends easily to high-quality text-guided editing.

研究动机与目标

在测试时分布shift下仍具鲁棒性的无配对 I2I 翻译为驱动动机。
提出通过自监督编码器学习的几何保持共享潜在空间，在不需要跨域监督的情况下连接域。
实现对共享潜在空间到域特定表示的逐域扩散桥的训练。
演示 MRI–CT 翻译的域外鲁棒性并扩展至自然图像翻译与文本引导编辑。

提出的方法

定义一个共享潜在空间 y，捕捉跨域几何一致的语义内容。
使用固定的预训练自监督编码器（基于 DINO）获得 z = E_phi(x) 并通过主成分分析投影 P 从补丁令牌中形成共享潜在 y。
训练域特定的潜在桥 p_theta^(i)(z^(i)|y) 作为条件解码器，将 y 映射到域潜在表示，通过端点不确定性参数 b 处理外观模糊性。
将翻译建模为潜在扩散桥或在 z0（域 i 的潜在表示）与 zT（共享潜在 y）之间的随机插值，使用 PF-ODE 采样并通过域特定解码器 D_phi 重建目标图像。
采用端点形式 zT^(i) ~ N(E_phi(x^(i)), b^2 I)，b 根据任务调整（如几何主导的翻译如 MRI→CT 时 b=0；外观模糊任务时 b>0）。
训练 v_theta 近似 PF-ODE 的潜在速度场，并使用基于一致性的自监督目标来促使编码器在保持几何的同时提高外观不变性。

Figure 1: Overview of our Self-Supervised Semantic-Bridge (SSB) framework for unpaired image translation and editing. SSB trains without paired data or adversarial objectives, relying on a shared latent-space assumption to connect domains via a common representation; $\times$ denotes no cross-domain

实验结果

研究问题

RQ1来自自监督编码器学习的共享、几何感知的潜在空间能否在无需跨域监督的情况下实现对多样域的忠实无配对翻译？
RQ2端点不确定性 b 的选择如何影响几何主导与外观模糊任务的翻译保真度？
RQ3MRI→CT 翻译对未见 MRI 对比是否鲁棒，框架能否扩展到自然图像翻译和文本引导编辑？
RQ4在给定学习的编码器/解码器和扩散桥动态下，可以推导出哪些翻译误差的理论界限？

主要发现

SSB 通过在共享潜在空间下将源到 y 的反演与域特定桥生成组合，实现无配对翻译。
一种几何保持的、基于 DINO 的编码器被训练以对齐模态，如 MRI–CT，使在域内与域外都可实现高保真 MRI→CT 翻译。
SSB 扩展到自然图像翻译和文本引导编辑，在语义对齐和结构保真度指标上获得有竞争力或更优的分数。
一个理论界限将翻译误差与编码器对齐、向量场近似、离散化和解码器重建误差联系起来，并在 MRI–CT 任务上进行了经验验证。
经验上，SSB 对未见 MRI 对比表现出鲁棒性，并在几何一致性方面优于基线方法。

Figure 2: Unlike inversion-based methods that invert toward an unstructured Gaussian noise, SSB defines a unified semantic latent endpoint ${\bm{y}}=E_{\phi}({\bm{x}})$ using a self-supervised visual encoder and trains domain-specific bridges independently to connect each domain to this shared endpo

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。