Skip to main content
QUICK REVIEW

[论文解读] SAS-Net: Cross-Domain Image Registration as Inverse Rendering via Structure-Appearance Factorization

Jiahao Qin|arXiv (Cornell University)|Feb 6, 2026
Photoacoustic and Ultrasonic Imaging被引用 0
一句话总结

SAS-Net 通过解耦场景与外观来实现双向 OR-PAM 图像的跨域注册,且实现了具有实时性能的最先进 NCC/SSIM 指标。

ABSTRACT

Cross-domain image registration requires aligning images acquired under heterogeneous imaging physics, where the classical brightness constancy assumption is fundamentally violated. We formulate this problem through an image formation model I = R(s, a) + epsilon, where each observation is generated by a rendering function R acting on domain-invariant scene structure s and domain-specific appearance statistics a. Registration then reduces to an inverse rendering problem: given observations from two domains, recover the shared structure and re-render it under the target appearance to obtain the registered output. We instantiate this framework as SAS-Net (Scene-Appearance Separation Network), where instance normalization implements the structure-appearance decomposition and Adaptive Instance Normalization (AdaIN) realizes the differentiable forward renderer. A scene consistency loss enforces geometric correspondence in the factorized latent space. Experiments on EuroSAT-Reg-256 (satellite remote sensing) and FIRE-Reg-256 (retinal fundus) demonstrate state-of-the-art performance across heterogeneous imaging domains. SAS-Net (3.35M parameters) achieves 89 FPS on an RTX 5090 GPU. Code: https://github.com/D-ST-Sword/SAS-Net.

研究动机与目标

  • 解决因扫描方向相关的域移位与几何畸变引起的双向 OR-PAM 时空错位。
  • 开发统一的场景-外观分离框架,在保持几何结构的同时实现跨域重建。
  • 引入场景一致性损失以在潜在空间中强制跨域的几何对应性。
  • 在共享场景空间中实现隐式帧间对齐,无需显式逐帧注册。
  • 在 OR-PAM-Reg-4K 上展示最先进的注册指标并实现实时推断。
  • 提供消融研究以量化各组件的贡献。

提出的方法

  • 使用场景编码器在图像中提取域不变的结构,结合实例归一化。
  • 使用外观编码器通过全局平均池化捕捉域特定的采集参数。
  • 实现前向模型与成像响应调制器,将模态参数对潜在结构进行仿射变换。
  • 通过在另一域的采集参数下重新渲染结构,实现跨域重建。
  • 通过共享场景空间与跨域重建损失强制隐式帧间对齐。
  • 使用包含场景一致性、循环一致性与对齐项的复合损失进行训练。

实验结果

研究问题

  • RQ1是否可以通过将域不变的场景内容与域特定的外观解耦来实现双向 OR-PAM 的注册?
  • RQ2在目标采集参数下的跨域重新渲染是否在补偿域移位的同时保留几何结构?
  • RQ3共享场景空间是否能够在不显式注册的情况下实现内部与帧间的一致对齐?
  • RQ4场景一致性、循环一致性与对齐损失对注册性能的贡献分别是什么?
  • RQ5与传统方法和深度学习基线相比,SAS-Net 在 OR-PAM-Reg-4K 基准上的表现如何?

主要发现

  • SAS-Net 在 OR-PAM-Reg-4K 测试集上实现 SSIM 0.894 ± 0.021 与 NCC 0.961 ± 0.038,优于传统方法。
  • 相比最佳传统方法(SIFT),SAS-Net 将 SSIM 提高 0.215,NCC 提高 0.238。
  • 帧间时序一致性在 117 对帧对上显示平均 NCC 0.964 ± 0.010。
  • 消融结果显示去除对齐损失使 NCC 从 0.961 降至 0.175(下降 82%)。
  • 通过场景-外观分离实现的联合域移位校正与注册在强度差异下对双向注册具有鲁棒性。
  • 推理时间为每帧 11.2 ms(89 帧/秒),实现实时处理。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。