[論文レビュー] SimMMDG: A Simple and Effective Framework for Multi-modal Domain Generalization
SimMMDGは、監督付き対比学習とクロスモーダル翻訳モジュールを用いたモダリティ特有およびモダリティ共有の特徴分割を導入し、マルチモーダル DGと欠搽モダリティのロバスト性を向上させる。EPIC-KitchensとHACデータセットで強力な結果を達成します。
In real-world scenarios, achieving domain generalization (DG) presents significant challenges as models are required to generalize to unknown target distributions. Generalizing to unseen multi-modal distributions poses even greater difficulties due to the distinct properties exhibited by different modalities. To overcome the challenges of achieving domain generalization in multi-modal scenarios, we propose SimMMDG, a simple yet effective multi-modal DG framework. We argue that mapping features from different modalities into the same embedding space impedes model generalization. To address this, we propose splitting the features within each modality into modality-specific and modality-shared components. We employ supervised contrastive learning on the modality-shared features to ensure they possess joint properties and impose distance constraints on modality-specific features to promote diversity. In addition, we introduce a cross-modal translation module to regularize the learned features, which can also be used for missing-modality generalization. We demonstrate that our framework is theoretically well-supported and achieves strong performance in multi-modal DG on the EPIC-Kitchens dataset and the novel Human-Animal-Cartoon (HAC) dataset introduced in this paper. Our source code and HAC dataset are available at https://github.com/donghao51/SimMMDG.
研究の動機と目的
- unseen multi-modal distributionsに対する堅牢な一般化の動機付け。
- モダリティ間の素朴な特徴整列を避け、モダリティ特有情報の喪失を防ぐ。
- ラベル整合情報のクロスモーダル共有を促進しつつモダリティ多様性を維持。
- 推論時の欠損モダリティを扱うためのクロスモーダル翻訳機構を提供。
- 新しいHACデータセットを導入し、マルチモーダル DG をベンチマーク。
提案手法
- 各モダリティの埋め込みをモダリティ特有成分とモダリティ共有成分に分割。
- モダリティ共有特徴に対して監督付き対比学習を適用し、同ラベルのクロスモーダルインスタンスをクラスタリング。
- モダリティ特有とモダリティ共有特徴間の距離を最大化して分離を促す距離ベースの損失を課す。
- クロスモーダル翻訳モジュール(MLP)を導入し、埋め込みをモダリティ間で翻訳し特徴を正則化する(L_trans)。
- 損失を最終目的関数に統合:L = L_cls + alpha_con L_con + alpha_dis L_dis + alpha_trans L_trans。
- 欠損モダリティの検証時には、翻訳を介して欠損埋め込みを予測(E_i_t)し、それを頑健な予測のために代替する。

実験結果
リサーチクエスチョン
- RQ1モダリティを単一の共有埋め込み空間に崩さずに、どのようにマルチモーダル DG を改善できるか?
- RQ2モダリティ特有情報を保持しつつ、共有のクロスモーダル情報を DG に活用できるか?
- RQ3クロスモーダル翻訳機構は欠損モダリティに対する頑健性を高めるか?
- RQ4このアプローチは標準的なマルチモーダル DG ベンチマークと新しい HAC データセットの両方で一般化できるか?
主な発見
- SimMMDGはEPIC-Kitchensでベースラインを一貫して上回り、三つのモダリティを全て使用した場合に最大で9.58%の改善を達成。
- SlowFastとResNet-18バックボーンを用いると、SimMMDGはベースラインに対して平均で最大5.73%の改善を達成。
- HACデータセットでは、SimMMDGがベースラインを最大7.73%改善。
- マルチモーダル単一ソース DG では、SimMMDGは競合手法より最大5.71%の平均改善を達成。
- 欠損モダリティの場合、ゼロ埋めと比較してクロスモーダル翻訳埋め込みを用いると最大で10.47%の精度向上を得られ、しばしばモノモードモデルを上回る。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。