QUICK REVIEW

[논문 리뷰] Unpaired Image-to-Image Translation via a Self-Supervised Semantic Bridge

Jiaming Liu, Felix Petersen|arXiv (Cornell University)|2026. 02. 18.

Generative Adversarial Networks and Image Synthesis인용 수 0

한 줄 요약

이 논문은 SSB(Self-Supervised Semantic Bridge)를 소개합니다. SSB는 자기지도 인코더에서 학습된 공유된 기하학적 보존 잠재 공간을 통해 도메인을 정렬하여 매칭되지 않는 이미지 간 변환을 가능하게 하며, 교차 도메인 감독 없이 MRI–CT 변환 및 자연 이미지 편집을 가능하게 합니다.

ABSTRACT

Adversarial diffusion and diffusion-inversion methods have advanced unpaired image-to-image translation, but each faces key limitations. Adversarial approaches require target-domain adversarial loss during training, which can limit generalization to unseen data, while diffusion-inversion methods often produce low-fidelity translations due to imperfect inversion into noise-latent representations. In this work, we propose the Self-Supervised Semantic Bridge (SSB), a versatile framework that integrates external semantic priors into diffusion bridge models to enable spatially faithful translation without cross-domain supervision. Our key idea is to leverage self-supervised visual encoders to learn representations that are invariant to appearance changes but capture geometric structure, forming a shared latent space that conditions the diffusion bridges. Extensive experiments show that SSB outperforms strong prior methods for challenging medical image synthesis in both in-domain and out-of-domain settings, and extends easily to high-quality text-guided editing.

연구 동기 및 목표

시험-시점 분포 변화에 강건하게 남아 있는 매칭되지 않는 I2I 변환을 동기화합니다.
교차 도메인 감독 없이 도메인을 연결하기 위해 기하학 보존 공유 잠재 공간을 자기지도 인코더를 통해 학습합니다.
공유 잠재를 도메인 특이 표현으로 매핑하는 확산 다리를 도메인별로 훈련합니다.
아웃-오브-도메인 강건성을 갖춘 MRI–CT 변환을 시연하고 자연 이미지 변환 및 텍스트 가이드 편집으로 확장합니다.]
method:[

제안 방법

공간 간 기하학적으로 일관된 의미 콘텐츠를 포착하는 공유 잠재 공간 y를 정의합니다.
고정된 사전 학습된 자기지도 인코더(DINO 기반)를 사용하여 z = E_phi(x)와 패치 토큰으로부터의 공유 잠재 y를 형성하기 위한 PCA 투영 P를 얻습니다.
도메인별 잠재 다리 p_theta^(i)(z^(i)|y)를 조건부 디코더로 학습하여 y를 도메인 잠재로 매핑하고, 외양 불확실성 매개변수 b를 끝점에 도입해 외관 모호성을 다룹니다.
번역을 z0(도메인 i 잠재)와 zT(공유 잠재 y) 사이의 잠재적 확산 다리 또는 확률적 보간으로 모델링하고, PF-ODE를 사용해 샘플링하고 도메인별 디코더 D_phi를 통해 대상 이미지를 재구성합니다.
엔드포인트 형식 zT^(i) ~ N(E_phi(x^(i)), b^2 I)를 채택하되, b는 작업에 따라 조정합니다(b=0은 MRI→CT 같은 기하학 중심 번역, b>0은 외관이 모호한 작업).
v_theta를 PF-ODE의 잠재 속도장으로 근사하도록 훈련하고, 인코더의 시각적 불변성을 촉진하면서 기하를 보존하는 일관성 기반 자기지도 목표를 사용합니다.

Figure 1: Overview of our Self-Supervised Semantic-Bridge (SSB) framework for unpaired image translation and editing. SSB trains without paired data or adversarial objectives, relying on a shared latent-space assumption to connect domains via a common representation; $\times$ denotes no cross-domain

실험 결과

연구 질문

RQ1자기지도 인코더에서 학습한 공유된 기하학 인식 잠재 공간이 교차 도메인 감독 없이도 다양한 도메인 간의 신뢰할 수한 매칭되지 않는 번역을 가능하게 할 수 있는가?
RQ2엔드포인트 불확실성 b의 선택이 기하 중심의 번역과 외관 모호한 작업의 번역 충실성에 어떻게 영향을 미치는가?
RQ3MRI→CT 번역은 외부 MRI 컨트라스트에 대해 강건한가, 프레임워크는 자연 이미지 변환 및 텍스트 가이드 편집으로 확장될 수 있는가?
RQ4학습된 인코더/디코더와 확산-브리지 동적에 대해 번역 오차에 대한 이론적 보장을 도출할 수 있는가?

주요 결과

SSB는 공유 잠재 공간 하에서 소스→y 역전과 도메인별 다리 생성을 구성하여 매칭되지 않는 번역을 달성합니다.
기하학 보존적 DINO 기반 인코더는 MRI–CT와 같은 모달리티를 정렬하도록 훈련되어 도메인 내 및 외부에서 고충실도 MRI→CT 번역을 가능하게 합니다.
SSB는 자연 이미지 번역 및 텍스트 가이드 편집으로 확장되어 의미 정렬 및 구조적 충실도 지표 모두에서 경쟁적이거나 우수한 점수를 보입니다.
번역 오차를 인코더 정렬, 벡터장 근사, 이산화, 디코더 재구성 오차로 연결하는 이론적 경계가 있으며 MRI–CT 작업에서 경험적으로 검증됩니다.
실험적으로 SSB는 보지 못한 MRI 컨트라스트에 대한 강건성을 보이고 기하학적 일관성을 향상시킵니다 비교 기준 방법에 비해.

Figure 2: Unlike inversion-based methods that invert toward an unstructured Gaussian noise, SSB defines a unified semantic latent endpoint ${\bm{y}}=E_{\phi}({\bm{x}})$ using a self-supervised visual encoder and trains domain-specific bridges independently to connect each domain to this shared endpo

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.