QUICK REVIEW

[論文レビュー] Test-time Adaptive Hierarchical Co-enhanced Denoising Network for Reliable Multimodal Classification

Shu Shen, C. L. Philip Chen|arXiv (Cornell University)|Jan 12, 2026

Image and Signal Denoising Methods被引用数 0

ひとこと要約

TAHCD はグローバルおよびインスタンスレベルでモダリティ特異的およびクロスモダリティノイズを同時に除去し、 unseen ノイズに適応するためのテスト時協調強化を導入して、堅牢なマルチモーダル分類を実現します。

ABSTRACT

Reliable learning of multimodal data (e.g., multi-omics) is a widely concerning issue, especially in safety-critical applications such as medical diagnosis. However, low-quality data induced by multimodal noise poses a major challenge in this domain, causing existing methods to suffer from two key limitations. First, they struggle to handle heterogeneous data noise, hindering robust multimodal representation learning. Second, they exhibit limited adaptability and generalization when encountering previously unseen noise. To address these issues, we propose Test-time Adaptive Hierarchical Co-enhanced Denoising Network (TAHCD). On one hand, TAHCD introduces the Adaptive Stable Subspace Alignment and Sample-Adaptive Confidence Alignment to reliably remove heterogeneous noise. They account for noise at both global and instance levels and enable jointly removal of modality-specific and cross-modality noise, achieving robust learning. On the other hand, TAHCD introduces Test-Time Cooperative Enhancement, which adaptively updates the model in response to input noise in a label-free manner, thus improving generalization. This is achieved by collaboratively enhancing the joint removal process of modality-specific and cross-modality noise across global and instance levels according to sample noise. Experiments on multiple benchmarks demonstrate that the proposed method achieves superior classification performance, robustness, and generalization compared with state-of-the-art reliable multimodal learning approaches.

研究の動機と目的

異種ノイズ（モダリティ特有およびクロスモダリティ）および unseen ノイズに対する堅牢なマルチモーダル学習を動機づける。
グローバルおよびインスタンスレベルでデノイズすることで表現の信頼性を向上させるフレームワークを開発する。
ラベルなしでのテスト時適応を可能にし、新たなノイズパターンへの一般化を強化する。
グローバルデノイズとインスタンスデノイズの協調強化の機構を提供し、堅牢性を向上させる。

提案手法

主成分軸上の学習可能マスクを用いて安定サブスペースを構築し、クラス間直交性とサブスペース射影の整合性を強制してグローバルノイズを除去する Adaptive Stable Subspace Alignment（ASSA）。
グローバルにデノイズされた特徴から推定した事前知識を用いて、インスタンスレベルのノイズ除去を信頼度対応の非対称 slack アラインメントで導く Sample-Adaptive Confidence Alignment（SACA）。
Test-Time Cooperative Enhancement（TTCE）は、インスタンスレベルのノイズを反復的に用いてグローバルデノイズと事前知識を洗練させ、ラベルなしで unseen ノイズへ適応できるようにする。
サンプルレベルでモダリティ特有ノイズおよびクロスモダリティノイズ除去のマスクを生成するインスタンス・モダリティ別ノイズエキスパート。
unseen ノイズ処理を改善するため、インスタンスレベルのノイズ情報をグローバルデノイズへ結びつける再構成ベースのフィードバックループ（L_re）。
分類前にモダリティ特有およびクロスモダリティでデノイズされた特徴を信頼度スコアで重み付けする最終融合戦略。

実験結果

リサーチクエスチョン

RQ1グローバルとインスタンスレベルの同時デノイズは、モダリティ特有ノイズとクロスモダリティノイズの両方を効果的に除去できるか。
RQ2テスト時協調強化はラベル付きの指示なしで unseen ノイズへの一般化を改善するか。
RQ3ASSA と SACA は、ノイズを除去しつつ有用なモダリティ情報の過度抑制を防ぐためにどのように相互作用するか。
RQ4提唱フレームワークは、多様なノイズを含むマルチモーダルベンチマークで最先端性能を達成できるか。

主な発見

TAHCD は、最先端の信頼性の高いマルチモダル学習手法と比較して、さまざまなノイズ条件下で優れた分類性能を達成する。
ASSA と SACA はグローバルおよびインスタンスレベルでモダリティ特有ノイズおよびクロスモダリティノイズを抑制しつつ、補完的なモダリティ情報を保持する。
TTCE はラベルなしで unseen ノイズへ適応を可能にし、反復を通じてデノイズと一般化を段階的に改善する。
本手法は複数のベンチマーク（BRCA、ROSMAP、CUB、FOOD101）で、さまざまなノイズ設定下の堅牢性と一般化性能を示す。
提案された信頼度対応の非対称 slack アラインメントは、低信頼モダリティへ学習を集中させ、ノイズを是正しつつ有用な情報を過度に抑制しない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。