[논문 리뷰] Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations
RobSelf는 학습 데이터나 사전 정렬 없이도 실제 환경에서 정렬 불일치를 가진 데이터에 대해 고해상도이면서도 충실한 SR 결과를 생성하기 위해 오정렬 인식 특징 변환기와 콘텐츠 인식 참조 필터를 공동으로 학습하는 완전한 자체 감독(self-supervised) 크로스-모달 초해상화 방법이다. 또한 RealMisSR 데이터셋을 도입한다.
Cross-modal super-resolution (SR) on real-world misaligned data is challenging, as only unlabeled low-resolution (LR) source and high-resolution (HR) guide images with complex spatial misalignment are available. Previous methods either rely on fully simulated training data or adopt suboptimal alignment strategies that overlook cross-modal dependencies, limiting their performance in practice. To address these issues, we propose RobSelf, a self-supervised model that jointly optimizes a misalignment-aware feature translator and a content-aware reference filter online. The translator resolves unsupervised cross-modal and cross-resolution alignment via weakly-supervised, misalignment-aware translation, yielding an aligned guide feature. Guided by this feature, the filter performs reference-based discriminative self-enhancement on the source, enabling SR prediction with high resolution and high fidelity. Experiments on synthesized data and our collected real-world data demonstrate that RobSelf achieves state-of-the-art performance, outperforming existing self-supervised and supervised methods. Moreover, it achieves superior efficiency, up to 15.3$ imes$ faster than prior self-supervised methods.
연구 동기 및 목표
- 학습 데이터나 실제 정답 감독 없이 실제 세계의 복잡한 불일치가 있는 크로스-모달 SR를 다룬다.
- 약하게 지도되는 방식으로 크로스-모달 특징을 정렬하기 위한 오정렬 인식 변환기를 개발한다.
- 출처 특징의 판별적 자기향상을 가능하게 하는 콘텐츠 인식 참조 필터를 도입한다.
제안 방법
- HR 가이드 특징을 LR 소스에 맞추기 위해 밀집 변형 필드를 추정하는 오정렬 인식 특징 변환기를 도입한다.
- 가이드 특징을 왜곡시켜 F_aligned_guide를 생성하되 소스와 정렬되면서도 주요 구조와 중복성을 보존한다.
- 소스 특징의 참조 기반 판별적 자기향상을 위해 콘텐츠 의존 커널을 적용하는 콘텐츠 인식 참조 필터를 제안한다.
- LR 소스와의 회귀 기반 일관성 손실을 사용하여 SR 예측과 변환 출력을 모두 감독한다.
- 정렬 계층 구현 차이에 따라 두 가지 RobSelf 변형(RobSelf-Re 및 RobSelf-De)을 제공한다(변형 가능한 컨볼루션 vs 단순 재샘플링).
- 합성 및 실제 세계의 정렬 불일치 데이터에 대해 데이터 보강이나 트랜스레이터 사전 학습 없이 이미지쌍당 온라인 최적화를 평가한다.
실험 결과
연구 질문
- RQ1학습 데이터나 실제 정답 감독 없이 실제 세계의 정렬 불일치를 가진 데이터에서 견고한 크로스-모달 SR을 달성할 수 있는가?
- RQ2완전한 자체 감독 프레임워크에서 모달리티 간의 정렬 불일치를 어떻게 해결할 수 있는가?
- RQ3콘텐츠 인식 참고 기반 필터링 전략이 정렬 불일치 하에서 SR 충실도를 향상시키는가?
주요 결과
- RobSelf는 합성된 RGB-깊이 및 현실 세계의 RGB-깊이 작업에서 자체 감독 방법 중 최첨단 성능을 달성한다.
- RobSelf-Re는 모든 작업에서 P2P보다 최대 15.3× 더 빠르며 우수한 효율성을 입증한다.
- 오정렬 인식 트랜스레이터와 콘텐츠 인식 필터 조합이 제거된 변형들보다 현저히 우수하며, 정렬된 가이드의 중요성과 판별적 자기향상의 중요성을 보여준다.
- 현실 세계의 정렬 불일치 RGB-깊이 데이터에서 RobSelf은 ×2 SR에서 최상위 성능을, ×4 SR에서는 기준선 대비 경쟁력 있는 결과를 보인다.
- RealMisSR 데이터셋은 자체 감독 크로스-모달 SR를 벤치마킹하기 위한 현실 세계의 RGB-D 및 RGB-NIR 정렬 불일치 데이터를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.