QUICK REVIEW

[论文解读] Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations

Xiaoyu Dong, Jiahuan Li|arXiv (Cornell University)|Feb 21, 2026

Advanced Image Processing Techniques被引用 0

一句话总结

RobSelf 是一种完全自监督的跨模态超分辨率方法，它联合学习一个对齐错位感知的特征转换器和一个内容感知的参考滤波器，以在现实世界错位数据上产生高分辨率且忠实的超分结果，且无需训练数据或预对齐。它还引入 RealMisSR 数据集。

ABSTRACT

Cross-modal super-resolution (SR) on real-world misaligned data is challenging, as only unlabeled low-resolution (LR) source and high-resolution (HR) guide images with complex spatial misalignment are available. Previous methods either rely on fully simulated training data or adopt suboptimal alignment strategies that overlook cross-modal dependencies, limiting their performance in practice. To address these issues, we propose RobSelf, a self-supervised model that jointly optimizes a misalignment-aware feature translator and a content-aware reference filter online. The translator resolves unsupervised cross-modal and cross-resolution alignment via weakly-supervised, misalignment-aware translation, yielding an aligned guide feature. Guided by this feature, the filter performs reference-based discriminative self-enhancement on the source, enabling SR prediction with high resolution and high fidelity. Experiments on synthesized data and our collected real-world data demonstrate that RobSelf achieves state-of-the-art performance, outperforming existing self-supervised and supervised methods. Moreover, it achieves superior efficiency, up to 15.3$ imes$ faster than prior self-supervised methods.

研究动机与目标

在没有训练数据或真实监督的情况下，应对现实世界复杂错位下的跨模态超分辨率问题。
开发一个对齐错位的转换器，以弱监督方式对跨模态特征进行对齐。
引入一个内容感知的参考滤波器，实现对源特征的判别性自增强。

提出的方法

引入一个对齐错位的特征转换器，估计一个密集形变场以将高分辨率引导特征对齐到低分辨率源。
对引导特征进行扭曲，产生与源对齐且保持重要结构与冗余性的 F_aligned_guide。
提出一个内容感知的参考滤波器，对参考基于内容的核进行应用，实现对源特征的判别性自增强。
使用基于回归的一致性损失与 LR 源进行监督，既监督超分预测又监督转换输出。
提供两个 RobSelf 变体（RobSelf-Re 与 RobSelf-De），它们在对齐层实现上不同（可变形卷积 vs 简单重采样）。
在不进行数据增强或转换器预训练的情况下，对每对图像进行在线优化评估，数据来自合成和现实世界的错位数据。

实验结果

研究问题

RQ1在没有训练数据或真实监督的情况下，是否可以在现实世界错位数据上实现鲁棒的跨模态超分辨率？
RQ2如何在一个完全自监督框架中处理模态之间的错位？
RQ3基于内容感知、参考驱动的过滤策略是否在错位条件下提升超分辨率的保真度？

主要发现

RobSelf 在合成 RGB-深度和真实世界 RGB-深度任务上，在自监督方法中实现最先进的性能。
RobSelf-Re 相较于 P2P 在各任务上速度提升最高可达 15.3×，展示出更高的效率。
错位感知的转换器加上内容感知滤波器显著优于去除部件的变体，证明对齐引导与判别性自增强的重要性。
在真实世界的错位 RGB-深度数据上，RobSelf 在 ×2 超分上取得最佳结果，在 ×4 超分上与基线相比具竞争力。
RealMisSR 数据集提供现实世界的 RGB-D 和 RGB-NIR 错位数据，用于基准自监督跨模态超分辨率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。