Skip to main content
QUICK REVIEW

[논문 리뷰] SAS-Net: Cross-Domain Image Registration as Inverse Rendering via Structure-Appearance Factorization

Jiahao Qin|arXiv (Cornell University)|2026. 02. 06.
Photoacoustic and Ultrasonic Imaging인용 수 0
한 줄 요약

SAS-Net은 장면(구조)과 외관(획득)을 분리하고 도메인 간 재렌더링을 통해 bidirectional OR-PAM의 도메인 시프트 보정과 기하학적 정합을 결합하여, 실시간 속도로 최첨단 정합 지표를 달성합니다.

ABSTRACT

Cross-domain image registration requires aligning images acquired under heterogeneous imaging physics, where the classical brightness constancy assumption is fundamentally violated. We formulate this problem through an image formation model I = R(s, a) + epsilon, where each observation is generated by a rendering function R acting on domain-invariant scene structure s and domain-specific appearance statistics a. Registration then reduces to an inverse rendering problem: given observations from two domains, recover the shared structure and re-render it under the target appearance to obtain the registered output. We instantiate this framework as SAS-Net (Scene-Appearance Separation Network), where instance normalization implements the structure-appearance decomposition and Adaptive Instance Normalization (AdaIN) realizes the differentiable forward renderer. A scene consistency loss enforces geometric correspondence in the factorized latent space. Experiments on EuroSAT-Reg-256 (satellite remote sensing) and FIRE-Reg-256 (retinal fundus) demonstrate state-of-the-art performance across heterogeneous imaging domains. SAS-Net (3.35M parameters) achieves 89 FPS on an RTX 5090 GPU. Code: https://github.com/D-ST-Sword/SAS-Net.

연구 동기 및 목표

  • scan-direction에 의한 도메인 시프트와 기하학적 왜곡으로 인한 bidirectional OR-PAM 시공간 정합 문제를 해결한다.
  • 기하학적 구조를 보존하면서 교차 도메인 재구성이 가능하도록 장면-외관 분리 프레임워크를 통합한다.
  • 잠재 공간에서 기하학적 대응을 강제하기 위한 장면 일관성 손실을 도입한다.
  • 명시적 프레임 간 정합 없이 공유된 장면 공간을 통해 암시적 프레임 간 정합을 달성한다.
  • OR-PAM-Reg-4K에서 실시간 추론으로 최첨단 정합 지표를 시연한다.
  • 각 구성요소의 기여를 정량화하기 위한 제거 실험(ablation)을 제공한다.

제안 방법

  • 이미지에서 인스턴스 정규화를 사용하여 도메인에 불변인 구조를 추출하는 Scene Encoder를 사용한다.
  • 전역 평균 풀링을 통해 도메인 특유의 획득 매개변수를 포착하는 Appearance Encoder를 사용한다.
  • 잠재 구조에 선형 모듈 매개변수를 적용하는 Imaging Response Modulator를 갖춘 Forward Model을 구현한다.
  • 한 도메인의 구조를 다른 도메인의 획득 매개변수 아래에서 재렌더링하여 교차 도메인 재구성을 수행한다.
  • 공유된 장면 공간과 도메인 간 재구성 손실을 통해 암시적 프레임 간 정합을 강제한다.
  • 장면 일관성, 사이클 일관성, 정합 항을 포함하는 복합 손실로 학습한다.

실험 결과

연구 질문

  • RQ1도메인에 의존하지 않는 장면 콘텐츠를 분리함으로써 bidirectional OR-PAM 정합이 달성될 수 있는가?
  • RQ2대상 획득 매개변수 아래에서의 교차 도메인 재렌더링이 기하학을 보존하면서 도메인 시프트를 보정하는가?
  • RQ3공유된 장면 공간이 명시적 정합 없이 내적 및 외적 프레임 정합을 가능하게 하는가?
  • RQ4장면 일관성, 사이클 일관성, 정합 손실의 기여가 정합 성능에 어떤 영향을 미치는가?
  • RQ5SAS-Net은 OR-PAM-Reg-4K 벤치마크에서 전통적 및 딥러닝 기준선과 비교하여 어떻게 수행하는가?

주요 결과

  • SAS-Net은 OR-PAM-Reg-4K 테스트 세트에서 SSIM 0.894 ± 0.021 및 NCC 0.961 ± 0.038를 달성하여 전통 방법을 능가합니다.
  • 최고 전통 방법(SIFT)과 비교하여 SAS-Net은 SSIM을 0.215, NCC를 0.238 증가시킵니다.
  • 프레임 간 시간적 일관성은 117 프레임 쌍에서 평균 NCC가 0.964 ± 0.010로 나타납니다.
  • 제거 실험에서 정합 손실을 제거하면 NCC가 0.961에서 0.175로 떨어져 82% 감소합니다.
  • 장면-외관 분리를 통한 도메인 시프트 보정 및 정합의 결합은 강건한 양방향 정합을 도메인 간 강도 차이에서 달성합니다.
  • 프레임당 추론 시간은 11.2 ms(89 fps)로 실시간 처리가 가능합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.