[論文レビュー] Unpaired Image-to-Image Translation via a Self-Supervised Semantic Bridge
この論文は、自己教師ありエンコーダから学習した共通の幾何学性を保持する潜在空間を介してドメインを整合させることで、ペアなしの画像to画像翻訳を可能にする自己教師付き意味的ブリッジ(SSB)を提案し、MRI–CT翻訳と自然画像編集をクロスドメイン监督なしで実現します。
Adversarial diffusion and diffusion-inversion methods have advanced unpaired image-to-image translation, but each faces key limitations. Adversarial approaches require target-domain adversarial loss during training, which can limit generalization to unseen data, while diffusion-inversion methods often produce low-fidelity translations due to imperfect inversion into noise-latent representations. In this work, we propose the Self-Supervised Semantic Bridge (SSB), a versatile framework that integrates external semantic priors into diffusion bridge models to enable spatially faithful translation without cross-domain supervision. Our key idea is to leverage self-supervised visual encoders to learn representations that are invariant to appearance changes but capture geometric structure, forming a shared latent space that conditions the diffusion bridges. Extensive experiments show that SSB outperforms strong prior methods for challenging medical image synthesis in both in-domain and out-of-domain settings, and extends easily to high-quality text-guided editing.
研究の動機と目的
- テスト時の分布シフトに対してロバストなペアなしI2I翻訳を動機づける。
- クロスドメインの監督なしにドメインを結ぶ幾何学的に保持された共有潜在空間を自己教師付きエンコーダで学習する。
- 共有潜在をドメイン固有表現へマップする拡散ブリッジの各ドメイン学習を可能にする。
- アウトオブドメインの頑健性を備えたMRI–CT翻訳を実証し、自然画像翻訳とテキスト誘導編集へ拡張する。
提案手法
- ドメイン間で幾何学的に一貫した意味内容を捉える共有潜在空間yを定義する。
- 事前学習済み自己教師付きエンコーダ(DINOベース)を用いてz = E_phi(x)を取得し、PCA射影を用いてパッチトークンから共有潜在yを形成する。
- ドメイン固有の潜在ブリッジp_theta^(i)(z^(i)|y)を条件デコーダとして訓練し、yをドメイン潜在へマップする。外見の曖昧さを扱うためエンドポイント不確かさパラメータbを導入する。
- 翻訳をz0(ドメインi潜在)とzT(共有潜在y)間の潜在拡散ブリッジまたは確率的補間としてモデル化し、PF-ODEを用いてサンプリング・再構成を行い、ドメイン固有デコーダD_phiを介してターゲット画像を得る。
- エンドポイント形式 zT^(i) ~ N(E_phi(x^(i)), b^2 I) を採用し、bはタスクに適応する(MRI→CTのような幾何学優先翻訳ではb=0、外見が曖昧なタスクではb>0)。
- v_thetaをPF-ODEの潜在速度場近似に学習し、エンコーダの外見不変性を促進しつつ幾何を保持する整合性ベースの自己監視目的を用いる。

実験結果
リサーチクエスチョン
- RQ1自己教師付きエンコーダから学習した共有で幾何学を意識した潜在空間は、クロスドメイン監督なしで多様なドメイン間の忠実なペアなし翻訳を可能にするか。
- RQ2エンドポイント不確かさbの選択は、幾何学優先タスクと外見が曖昧なタスクの翻訳忠実度にどのように影響するか。
- RQ3MRI→CT翻訳は未知のMRIコントラストに頑健か、フレームワークは自然画像翻訳とテキスト誘導編集へ拡張可能か。
- RQ4学習済みエンコーダ/デコーダと拡散ブリッジダイナミクスに対して翻訳誤差の理論的保証は導出できるか。
主な発見
- SSBはソースからyへの反転とドメイン固有ブリッジ生成を共有潜在空間の下で組み合わせることでペアなし翻訳を実現する。
- 幾何学的に保持されたDINOベースのエンコーダはMRI–CTのようなモダリティを整列させるよう訓練され、ドメイン内およびドメイン外で高忠実なMRI→CT翻訳を可能にする。
- SSBは自然画像翻訳およびテキスト誘導編集へ拡張し、意味的整合性と構造的忠実性の指標で競争力のあるまたは優れたスコアを示す。
- 翻訳誤差とエンコーダ整合性、ベクトル場近似、離散化、デコーダ再構成誤差の理論上の境界が得られ、MRI–CTタスクで経験的に検証される。
- 経験的に、SSBは未見のMRIコントラストに対して頑健で、ベースライン法と比較して幾何的一貫性を改善する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。