[論文レビュー] CaReFlow: Cyclic Adaptive Rectified Flow for Multimodal Fusion
CaReFlowは、one-to-many mappings、適応的緩和整列、およびサイクル一貫性を介して視覚・音響モダリティ分布を言語分布へマッピングする循環適応整流フローを活用し、ロバストな多モーダル融合と多モーダル感情計算タスクで最先端の結果を達成します。
Modality gap significantly restricts the effectiveness of multimodal fusion. Previous methods often use techniques such as diffusion models and adversarial learning to reduce the modality gap, but they typically focus on one-to-one alignment without exposing the data points of the source modality to the global distribution information of the target modality. To this end, leveraging the characteristic of rectified flow that can map one distribution to another via a straight trajectory, we extend rectified flow for modality distribution mapping. Specifically, we leverage the `one-to-many mapping' strategy in rectified flow that allows each data point of the source modality to observe the overall target distribution. This also alleviates the issue of insufficient paired data within each sample, enabling a more robust distribution transformation. Moreover, to achieve more accurate distribution mapping and address the ambiguous flow directions in one-to-many mapping, we design `adaptive relaxed alignment', enforcing stricter alignment for modality pairs belonging to the same sample, while applying relaxed mapping for pairs not belonging to the same sample or category. Additionally, to prevent information loss during distribution mapping, we introduce `cyclic rectified flow' to ensure the transferred features can be translated back to the original features, allowing multimodal representations to learn sufficient modality-specific information. After distribution alignment, our approach achieves very competitive results on multiple tasks of multimodal affective computing even with a simple fusion method, and visualizations verify that it can effectively reduce the modality gap.
研究の動機と目的
- 多モーダル感情計算(MAC)におけるモ modality ギャップを分布マッピング問題として再定式化する。
- CaReFlowをone-to-many mappings、適応的緩和整列、サイクル情報フローと共に開発し、モダリティ固有情報を保ちながら整列を改善する。
- 分布整列後の単純な融合モジュールを用いて効果的な多モーダル融合を実現し、MACベンチマーク全体で強力な実証結果を示す。
- CaReFlowがモダリティギャップを視覚的および定量的に低減することを示し、融合戦略全体でのロバスト性を分析する。
提案手法
- 整流フローを採用し、ソースモダリティ分布をターゲット言語分布へ直線的な軌道でマッピングする。
- 整列時に各ソースデータポイントがより広いターゲット分布を観察できるよう、one-to-many mappingを採用する。
- 同一サンプルからのペアにはより厳格な整列を課し、異なるサンプル/カテゴリにはマージンがラベル類似度に依存するように適応的緩和整列を導入する。
- 前方変換された特徴量を元の特徴へ戻せるようサイクル整流フローを組み込み、モダリティ固有情報を保持する。
- ドラフト力Vを時系列埋め込みを持つ時間依存ニューラルネット(MLP)として実装し、X_m1をX_m2へ整列させる前方損失と元へ戻す逆損失を用いて訓練する。 unimodal学習をデタッチ操作で切り離す。
- 視覚/音響モダリティを言語空間へマッピングする際に、実践ではdt=0.5の2つのオイラーステップを用い、ソースからターゲットへの因果情報の流れを可能にする。
- 適応的緩和整列は、サンプル関係およびカテゴリ関係に依存するマージンηによって制御され、反復的な整流フロー訓練を大量に行うことなく、より速く正確な分布マッピングを可能にする。
- サイクル情報フローには、マッピングされた特徴から元のモダリティ特徴を再構成する逆向きの整流フローが含まれ、下流の予測のための情報保持を支援する。
- 分布整列後の融合は、単純なFusionモジュール(連結+MLP)で実行され、CaReFlowが軽量な融合でも性能を向上させることを示す。
実験結果
リサーチクエスチョン
- RQ1整流フローを多モーダル分布整列へ適用して、一対一 mappings を超えるモダリティギャップを橋渡しできるか。
- RQ2適応的緩和整列を伴うone-to-many mappingは整列品質を改善し、反復的な整流フロー訓練の必要性を減らすか。
- RQ3サイクル一貫性は、MACタスクにおける分布変換中にモダリティ固有情報を保持するために不可欠か。
主な発見
- CaReFlowはCMU-MOSI、CMU-MOSEI、CH-SIMS-v2、UR-FUNNY、MUStARDなどの複数データセットにおいて、感情分析および関連MACタスクで競合的かつしばしば最先端の結果を達成する。
- CMU-MOSIでは、CaReFlowはAcc7=50.6、Acc2=89.8、F1=89.7、MAE=0.616、Corr=0.858を達成。
- CMU-MOSEIでは、CaReFlowはAcc7=55.7、Acc2=87.9、F1=88.0、MAE=0.504、Corr=0.799を達成。
- CH-SIMS-v2では、CaReFlowはAcc5=57.9、Acc3=75.9、Acc2=82.9、F1=82.9、MAE=0.277、Corr=0.745を達成。
- MHDおよびMSDタスク(UR-FUNNYとMUStARD)全体でCaReFlowは強力なベースラインを顕著なマージンで上回り、他のMACタスクへの一般化可能性を示す。
- アブレーション研究により、分布整列、サイクル情報フロー、適応的緩和整列、one-to-many mappingを削除すると性能が著しく低下することが示され、これらの重要性が裏付けられる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。