[論文レビュー] SAS-Net: Cross-Domain Image Registration as Inverse Rendering via Structure-Appearance Factorization
SAS-Netは、シーン(構造)と外観(取得)を分離して双方向OR-PAMのドメインシフト補正と幾何学的登録を統合し、ドメイン間で再レンダリングすることで、リアルタイム速度とともに最先端の登録指標を達成します。
Cross-domain image registration requires aligning images acquired under heterogeneous imaging physics, where the classical brightness constancy assumption is fundamentally violated. We formulate this problem through an image formation model I = R(s, a) + epsilon, where each observation is generated by a rendering function R acting on domain-invariant scene structure s and domain-specific appearance statistics a. Registration then reduces to an inverse rendering problem: given observations from two domains, recover the shared structure and re-render it under the target appearance to obtain the registered output. We instantiate this framework as SAS-Net (Scene-Appearance Separation Network), where instance normalization implements the structure-appearance decomposition and Adaptive Instance Normalization (AdaIN) realizes the differentiable forward renderer. A scene consistency loss enforces geometric correspondence in the factorized latent space. Experiments on EuroSAT-Reg-256 (satellite remote sensing) and FIRE-Reg-256 (retinal fundus) demonstrate state-of-the-art performance across heterogeneous imaging domains. SAS-Net (3.35M parameters) achieves 89 FPS on an RTX 5090 GPU. Code: https://github.com/D-ST-Sword/SAS-Net.
研究の動機と目的
- scan方向依存のドメインシフトと幾何歪みによって引き起こされる双方向OR-PAMの時空的不整合を解決する。
- ジオメトリック構造を preserve しつつ跨ドメイン再構成を可能にする統一的なシーン-アピアランス分離フレームワークを開発する。
- 潜在空間で幾何学的対応を強制するシーン整合性損失を導入する。
- 明示的なフレーム間登録なしで共有シーン空間を介して暗黙のフレーム間整 alignment を達成する。
- OR-PAM-Reg-4Kで最先端の登録指標をリアルタイム推論で示す。
- 各コンポーネントの寄与を定量化するアブレーション研究を提供する。
提案手法
- Scene Encoderを用いてインスタンス正規化付き画像からドメイン不変の構造を抽出する。
- Appearance Encoderを用いてグローバル平均プーリングを介してドメイン特有の取得パラメータを捉える。
- Imaging Response Modulatorを備えたForward Modelを実装し、 latent 構造にアフィンモダリティパラメータを適用する。
- 一方のドメインの構造を他方の取得パラメータ下で再レンダリングすることで跨ドメイン再構成を実行する。
- 共有シーン空間と跨ドメイン再構成損失を通じて暗黙のフレーム間整 alignment を強制する。
- シーン整合性、サイクル整合性、整列項を含む複合損失で訓練する。
実験結果
リサーチクエスチョン
- RQ1ドメイン不変のシーン内容を分離することで双方向のOR-PAM登録を実現できるか。
- RQ2ターゲット取得パラメータ下での跨ドメイン再レンダリングは幾何を保持しつつドメインシフトを補償できるか。
- RQ3共有シーン空間は明示的な登録なしで暗黙の intra-および inter-frame 整 alignment を可能にするか。
- RQ4シーン整合性、サイクル整合性、整列損失が登録性能に与える寄与はどれか。
- RQ5SAS-NetはOR-PAM-Reg-4Kベンチマークで従来手法および深層学習ベースラインと比べてどうなるか。
主な発見
| Method | SSIM ↑ | PSNR ↑ | NCC ↑ |
|---|---|---|---|
| Original (Unregistered) | 0.482 | - | - |
| SIFT | 0.679 | 24.14 | 0.723 |
| Demons | 0.579 | 20.35 | 0.323 |
| Optical Flow | 0.455 | 18.99 | 0.061 |
| SyN (ANTs) | 0.613 | 21.55 | 0.411 |
| VoxelMorph | 0.659 | 22.88 | 0.724 |
| TransMorph | 0.641 | 21.09 | 0.594 |
| SAS-Net (Ours) | 0.894 ± 0.021 | 32.50 ± 1.6 | 0.961 ± 0.038 |
- SAS-Netは OR-PAM-Reg-4K テストセットで SSIM 0.894 ± 0.021 および NCC 0.961 ± 0.038 を達成し、従来手法を上回る。
- 最良従来手法(SIFT)と比較して、SAS-Netは SSIM を 0.215、NCC を 0.238 向上させた。
- フレーム間の時間的一貫性は、117 フレーム対に対して平均 NCC 0.964 ± 0.010 を示す。
- アブレーションでは整列損失を除去すると NCC が 0.961 から 0.175 に低下(82%低減)。
- シーン-外観分離による結合ドメインシフト補正と登録は、強度差の下で堅牢な双方向登録を生み出す。
- 推論時間は 11.2 ms/フレーム(89 fps)、リアルタイム処理を実現。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。