QUICK REVIEW

[논문 리뷰] SAS-Net: Cross-Domain Image Registration as Inverse Rendering via Structure-Appearance Factorization

Jiahao Qin|arXiv (Cornell University)|2026. 02. 06.

Photoacoustic and Ultrasonic Imaging인용 수 0

한 줄 요약

SAS-Net은 장면(구조)과 외관(획득)을 분리하고 도메인 간 재렌더링을 통해 bidirectional OR-PAM의 도메인 시프트 보정과 기하학적 정합을 결합하여, 실시간 속도로 최첨단 정합 지표를 달성합니다.

ABSTRACT

Cross-domain image registration requires aligning images acquired under heterogeneous imaging physics, where the classical brightness constancy assumption is fundamentally violated. We formulate this problem through an image formation model I = R(s, a) + epsilon, where each observation is generated by a rendering function R acting on domain-invariant scene structure s and domain-specific appearance statistics a. Registration then reduces to an inverse rendering problem: given observations from two domains, recover the shared structure and re-render it under the target appearance to obtain the registered output. We instantiate this framework as SAS-Net (Scene-Appearance Separation Network), where instance normalization implements the structure-appearance decomposition and Adaptive Instance Normalization (AdaIN) realizes the differentiable forward renderer. A scene consistency loss enforces geometric correspondence in the factorized latent space. Experiments on EuroSAT-Reg-256 (satellite remote sensing) and FIRE-Reg-256 (retinal fundus) demonstrate state-of-the-art performance across heterogeneous imaging domains. SAS-Net (3.35M parameters) achieves 89 FPS on an RTX 5090 GPU. Code: https://github.com/D-ST-Sword/SAS-Net.

연구 동기 및 목표

scan-direction에 의한 도메인 시프트와 기하학적 왜곡으로 인한 bidirectional OR-PAM 시공간 정합 문제를 해결한다.
기하학적 구조를 보존하면서 교차 도메인 재구성이 가능하도록 장면-외관 분리 프레임워크를 통합한다.
잠재 공간에서 기하학적 대응을 강제하기 위한 장면 일관성 손실을 도입한다.
명시적 프레임 간 정합 없이 공유된 장면 공간을 통해 암시적 프레임 간 정합을 달성한다.
OR-PAM-Reg-4K에서 실시간 추론으로 최첨단 정합 지표를 시연한다.
각 구성요소의 기여를 정량화하기 위한 제거 실험(ablation)을 제공한다.

제안 방법

이미지에서 인스턴스 정규화를 사용하여 도메인에 불변인 구조를 추출하는 Scene Encoder를 사용한다.
전역 평균 풀링을 통해 도메인 특유의 획득 매개변수를 포착하는 Appearance Encoder를 사용한다.
잠재 구조에 선형 모듈 매개변수를 적용하는 Imaging Response Modulator를 갖춘 Forward Model을 구현한다.
한 도메인의 구조를 다른 도메인의 획득 매개변수 아래에서 재렌더링하여 교차 도메인 재구성을 수행한다.
공유된 장면 공간과 도메인 간 재구성 손실을 통해 암시적 프레임 간 정합을 강제한다.
장면 일관성, 사이클 일관성, 정합 항을 포함하는 복합 손실로 학습한다.

실험 결과

연구 질문

RQ1도메인에 의존하지 않는 장면 콘텐츠를 분리함으로써 bidirectional OR-PAM 정합이 달성될 수 있는가?
RQ2대상 획득 매개변수 아래에서의 교차 도메인 재렌더링이 기하학을 보존하면서 도메인 시프트를 보정하는가?
RQ3공유된 장면 공간이 명시적 정합 없이 내적 및 외적 프레임 정합을 가능하게 하는가?
RQ4장면 일관성, 사이클 일관성, 정합 손실의 기여가 정합 성능에 어떤 영향을 미치는가?
RQ5SAS-Net은 OR-PAM-Reg-4K 벤치마크에서 전통적 및 딥러닝 기준선과 비교하여 어떻게 수행하는가?

주요 결과

SAS-Net은 OR-PAM-Reg-4K 테스트 세트에서 SSIM 0.894 ± 0.021 및 NCC 0.961 ± 0.038를 달성하여 전통 방법을 능가합니다.
최고 전통 방법(SIFT)과 비교하여 SAS-Net은 SSIM을 0.215, NCC를 0.238 증가시킵니다.
프레임 간 시간적 일관성은 117 프레임 쌍에서 평균 NCC가 0.964 ± 0.010로 나타납니다.
제거 실험에서 정합 손실을 제거하면 NCC가 0.961에서 0.175로 떨어져 82% 감소합니다.
장면-외관 분리를 통한 도메인 시프트 보정 및 정합의 결합은 강건한 양방향 정합을 도메인 간 강도 차이에서 달성합니다.
프레임당 추론 시간은 11.2 ms(89 fps)로 실시간 처리가 가능합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.