[論文レビュー] Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations
RobSelf は、ずれを認識する特徴変換器とコンテンツ認識リファレンスフィルタを jointly 学習し、実世界のずれデータに対して訓練データや前揃え無しで高解像度かつ忠実な SR 結果を生み出す、完全自己監督型のクロスモーダル超解像法である。RealMisSR データセットも導入する。
Cross-modal super-resolution (SR) on real-world misaligned data is challenging, as only unlabeled low-resolution (LR) source and high-resolution (HR) guide images with complex spatial misalignment are available. Previous methods either rely on fully simulated training data or adopt suboptimal alignment strategies that overlook cross-modal dependencies, limiting their performance in practice. To address these issues, we propose RobSelf, a self-supervised model that jointly optimizes a misalignment-aware feature translator and a content-aware reference filter online. The translator resolves unsupervised cross-modal and cross-resolution alignment via weakly-supervised, misalignment-aware translation, yielding an aligned guide feature. Guided by this feature, the filter performs reference-based discriminative self-enhancement on the source, enabling SR prediction with high resolution and high fidelity. Experiments on synthesized data and our collected real-world data demonstrate that RobSelf achieves state-of-the-art performance, outperforming existing self-supervised and supervised methods. Moreover, it achieves superior efficiency, up to 15.3$ imes$ faster than prior self-supervised methods.
研究の動機と目的
- 訓練データや地上真実の監督なしで、実世界の複雑なずれを伴うクロスモーダル SR を扱う。
- 弱教師ありの方法で、ずれに対応する特徴変換器を開発する。
- リファレンスフィルタを導入して、ソースを識別的に自己強化する。
提案手法
- HR ガイド特徴を LR ソースに合わせて整列させる密な変形場を推定するずれ対応特徴変換器を導入する。
- ガイド特徴をワープさせ、ソースと整列しつつ本質的構造と冗長性を保持する F_aligned_guide を生成する。
- コンテンツ依存のカーネルを適用するコンテンツ認識リファレンスフィルターを提案し、ソース特徴のリファレンスベースの識別的自己強化を実現する。
- LR ソースと回帰ベースの整合性損失を用いて、SR 予測と翻訳出力の両方を監督する。
- 整列層の実装を変えた2つの RobSelf バリアント(RobSelf-Re と RobSelf-De:変形可能畳み込み vs 単純リサンプリング)を提供する。
- データ拡張や翻訳器の事前学習なしで、画像ペアごとにオンライン最適化を評価する。合成データおよび実世界のずれデータで。
実験結果
リサーチクエスチョン
- RQ1訓練データや地上真実の監督なしで、実世界のずれを伴うクロスモーダル SR で頑健な結果を得られるか?
- RQ2完全自己監督フレームワークでモダリティ間のずれをどう対処するか?
- RQ3コンテンツ認識のリファレンスベースフィルタリング戦略は、ずれ下で SR の忠実度を向上させるか?
主な発見
- RobSelf は合成 RGB-深度および実世界の RGB-深度タスクにおいて、自己監督法の中で最先端の性能を達成する。
- RobSelf-Re はタスク間で P2P より最大 15.3 倍高速で、優れた効率を示す。
- ずれ対応の翻訳器とコンテンツ認識フィルタは、アブレーション型変種を大きく上回り、整列されたガイダンスと識別的自己強化の重要性を示す。
- 実世界のずれ RGB-深度データに対して、RobSelf は ×2 SR で最良の結果を、×4 SR でベースラインと比して競合的な結果を達成する。
- RealMisSR データセットは、自己監督型クロスモーダル SR を評価する実世界の RGB-D および RGB-NIR のずれデータを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。