[논문 리뷰] Unpaired Image-to-Image Translation via a Self-Supervised Semantic Bridge
이 논문은 SSB(Self-Supervised Semantic Bridge)를 소개합니다. SSB는 자기지도 인코더에서 학습된 공유된 기하학적 보존 잠재 공간을 통해 도메인을 정렬하여 매칭되지 않는 이미지 간 변환을 가능하게 하며, 교차 도메인 감독 없이 MRI–CT 변환 및 자연 이미지 편집을 가능하게 합니다.
Adversarial diffusion and diffusion-inversion methods have advanced unpaired image-to-image translation, but each faces key limitations. Adversarial approaches require target-domain adversarial loss during training, which can limit generalization to unseen data, while diffusion-inversion methods often produce low-fidelity translations due to imperfect inversion into noise-latent representations. In this work, we propose the Self-Supervised Semantic Bridge (SSB), a versatile framework that integrates external semantic priors into diffusion bridge models to enable spatially faithful translation without cross-domain supervision. Our key idea is to leverage self-supervised visual encoders to learn representations that are invariant to appearance changes but capture geometric structure, forming a shared latent space that conditions the diffusion bridges. Extensive experiments show that SSB outperforms strong prior methods for challenging medical image synthesis in both in-domain and out-of-domain settings, and extends easily to high-quality text-guided editing.
연구 동기 및 목표
- 시험-시점 분포 변화에 강건하게 남아 있는 매칭되지 않는 I2I 변환을 동기화합니다.
- 교차 도메인 감독 없이 도메인을 연결하기 위해 기하학 보존 공유 잠재 공간을 자기지도 인코더를 통해 학습합니다.
- 공유 잠재를 도메인 특이 표현으로 매핑하는 확산 다리를 도메인별로 훈련합니다.
- 아웃-오브-도메인 강건성을 갖춘 MRI–CT 변환을 시연하고 자연 이미지 변환 및 텍스트 가이드 편집으로 확장합니다.]
- method:[
제안 방법
- 공간 간 기하학적으로 일관된 의미 콘텐츠를 포착하는 공유 잠재 공간 y를 정의합니다.
- 고정된 사전 학습된 자기지도 인코더(DINO 기반)를 사용하여 z = E_phi(x)와 패치 토큰으로부터의 공유 잠재 y를 형성하기 위한 PCA 투영 P를 얻습니다.
- 도메인별 잠재 다리 p_theta^(i)(z^(i)|y)를 조건부 디코더로 학습하여 y를 도메인 잠재로 매핑하고, 외양 불확실성 매개변수 b를 끝점에 도입해 외관 모호성을 다룹니다.
- 번역을 z0(도메인 i 잠재)와 zT(공유 잠재 y) 사이의 잠재적 확산 다리 또는 확률적 보간으로 모델링하고, PF-ODE를 사용해 샘플링하고 도메인별 디코더 D_phi를 통해 대상 이미지를 재구성합니다.
- 엔드포인트 형식 zT^(i) ~ N(E_phi(x^(i)), b^2 I)를 채택하되, b는 작업에 따라 조정합니다(b=0은 MRI→CT 같은 기하학 중심 번역, b>0은 외관이 모호한 작업).
- v_theta를 PF-ODE의 잠재 속도장으로 근사하도록 훈련하고, 인코더의 시각적 불변성을 촉진하면서 기하를 보존하는 일관성 기반 자기지도 목표를 사용합니다.

실험 결과
연구 질문
- RQ1자기지도 인코더에서 학습한 공유된 기하학 인식 잠재 공간이 교차 도메인 감독 없이도 다양한 도메인 간의 신뢰할 수한 매칭되지 않는 번역을 가능하게 할 수 있는가?
- RQ2엔드포인트 불확실성 b의 선택이 기하 중심의 번역과 외관 모호한 작업의 번역 충실성에 어떻게 영향을 미치는가?
- RQ3MRI→CT 번역은 외부 MRI 컨트라스트에 대해 강건한가, 프레임워크는 자연 이미지 변환 및 텍스트 가이드 편집으로 확장될 수 있는가?
- RQ4학습된 인코더/디코더와 확산-브리지 동적에 대해 번역 오차에 대한 이론적 보장을 도출할 수 있는가?
주요 결과
- SSB는 공유 잠재 공간 하에서 소스→y 역전과 도메인별 다리 생성을 구성하여 매칭되지 않는 번역을 달성합니다.
- 기하학 보존적 DINO 기반 인코더는 MRI–CT와 같은 모달리티를 정렬하도록 훈련되어 도메인 내 및 외부에서 고충실도 MRI→CT 번역을 가능하게 합니다.
- SSB는 자연 이미지 번역 및 텍스트 가이드 편집으로 확장되어 의미 정렬 및 구조적 충실도 지표 모두에서 경쟁적이거나 우수한 점수를 보입니다.
- 번역 오차를 인코더 정렬, 벡터장 근사, 이산화, 디코더 재구성 오차로 연결하는 이론적 경계가 있으며 MRI–CT 작업에서 경험적으로 검증됩니다.
- 실험적으로 SSB는 보지 못한 MRI 컨트라스트에 대한 강건성을 보이고 기하학적 일관성을 향상시킵니다 비교 기준 방법에 비해.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.