[論文レビュー] Coupled Mamba: Enhanced Multi-modal Fusion with Coupled State Space Model
Coupled Mambaを導入した、結合状態空間モデルを用いたマルチモーダル融合フレームワーク。複数のモダリティを統合することで効率と精度を向上させ、並列性とクロスモーダルダイナミクスを改善する。
The essence of multi-modal fusion lies in exploiting the complementary information inherent in diverse modalities. However, prevalent fusion methods rely on traditional neural architectures and are inadequately equipped to capture the dynamics of interactions across modalities, particularly in presence of complex intra- and inter-modality correlations. Recent advancements in State Space Models (SSMs), notably exemplified by the Mamba model, have emerged as promising contenders. Particularly, its state evolving process implies stronger modality fusion paradigm, making multi-modal fusion on SSMs an appealing direction. However, fusing multiple modalities is challenging for SSMs due to its hardware-aware parallelism designs. To this end, this paper proposes the Coupled SSM model, for coupling state chains of multiple modalities while maintaining independence of intra-modality state processes. Specifically, in our coupled scheme, we devise an inter-modal hidden states transition scheme, in which the current state is dependent on the states of its own chain and that of the neighbouring chains at the previous time-step. To fully comply with the hardware-aware parallelism, we devise an expedite coupled state transition scheme and derive its corresponding global convolution kernel for parallelism. Extensive experiments on CMU-MOSEI, CH-SIMS, CH-SIMSV2 through multi-domain input verify the effectiveness of our model compared to current state-of-the-art methods, improved F1-Score by 0.4\%, 0.9\%, and 2.3\% on the three datasets respectively, 49\% faster inference and 83.7\% GPU memory save. The results demonstrate that Coupled Mamba model is capable of enhanced multi-modal fusion.
研究の動機と目的
- モーダリティ内ダイナミクスを保持しつつ、モーダリティ間の相互作用を活用する改善されたマルチモーダル融合を動機づける。
- モダリティ状態チェーンを結合する一方で、モード内プロセスを独立に保つ結合状態空間モデルを提案する。
- Coupled Mambaのためのグローバル畳み込みカーネルを介したハードウェアに優しい並列性機構を開発する。
- 標準のマルチモーダル感情データセットでの効率向上(速度とメモリ)と精度の改善を示す。
提案手法
- 各モダリティの現在の状態が自身の以前の状態と隣接モダリティに依存する結合状態遷移でマルチモーダルデータをモデル化する。
- 和集合後の結合状態遷移を用いてメモリと計算を削減するため、状態和を採用し、和集合後の全体状態遷移をS_mでモデル化する。
- ハードウェア対応の並列性を可能にし、Mambaの有利な並列処理を維持するためのグローバル畳み込みカーネルを導出する。
- 層を通じてCoupled Mambaブロックで複数モダリティを処理するアルゴリズム手順(Algorithm 1)を提供する。
- 整列済みと未整列データ設定の双方で、標準のマルチドメインデータセット CMU-MOSEI、CH-SIMS、CH-SIMSV2 を用いて評価する。

実験結果
リサーチクエスチョン
- RQ1Coupled Mambaは、モーダリティ間の依存関係を共同でモデル化しつつ、モーダリティ内の状態進化を保持することで、マルチモーダル融合を改善できるか。
- RQ2結合SSMアプローチは、ベースラインのマルチモーダル融合手法と比較して推論をより速くし、GPUメモリ使用量を低く抑えることができるか?
- RQ3パラメータの選択(例:状態次元、タイムスケールDelta)はMSAタスクの性能にどのように影響するか?
- RQ4Coupled Mambaは、ミスアラインドデータに対してクロスアテンション法と比較して頑健か?
主な発見
- Coupled Mambaは、複数のベースラインと比較してCMU-MOSEI、CH-SIMS、CH-SIMSV2全体でより高いF1スコアと競合する精度を達成している。
- 提案手法は、報告された設定で約49%の推論高速化と83.7%のGPUメモリ節約をもたらす。
- クロスアテンションをCoupled Mambaに置換すると、未整列データに対する頑健性が向上し、言語を跨いでも性能を維持する。
- CMU-MOSEIの実験では、Coupled FusionはAverage Fusion、Concat Fusion、単一ブロックのMambaよりも優れている。
- 性能はDeltaとdstateに敏感で、Delta = dstate/8 および dstate = 64 が、試験した構成の中で最良の結果をもたらす。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。