QUICK REVIEW

[論文レビュー] Learn to Combine Modalities in Multimodal Deep Learning

Kuan Liu, Yanen Li|arXiv (Cornell University)|May 29, 2018

Speech and Audio Processing参考文献 30被引用数 131

ひとこと要約

自動的にサンプルごとに弱いモダリティの重みを下げる乗法的マルチモーダル融合とモダリティ混合技術を導入し、タスク全体で堅牢なマルチモーダル分類を改善する。クロスモダリティ相関を捉えるモダリティ混合集を拡張し、3つの実世界データセットで性能を向上させる。

ABSTRACT

Combining complementary information from multiple modalities is intuitively appealing for improving the performance of learning-based approaches. However, it is challenging to fully leverage different modalities due to practical challenges such as varying levels of noise and conflicts between modalities. Existing methods do not adopt a joint approach to capturing synergies between the modalities while simultaneously filtering noise and resolving conflicts on a per sample basis. In this work we propose a novel deep neural network based technique that multiplicatively combines information from different source modalities. Thus the model training process automatically focuses on information from more reliable modalities while reducing emphasis on the less reliable modalities. Furthermore, we propose an extension that multiplicatively combines not only the single-source modalities, but a set of mixtured source modalities to better capture cross-modal signal correlations. We demonstrate the effectiveness of our proposed technique by presenting empirical results on three multimodal classification tasks from different domains. The results show consistent accuracy improvements on all three tasks.

研究の動機と目的

モダリティの信頼性がサンプルごとに異なり、ノイズを含む場合があるときに堅牢なマルチモーダル学習を動機づける。
学習と推論時に弱いモダリティを低重み付けする乗法的融合機構を提案する。
クロスモダリティ相互作用をモデル化し、モデル能力を拡張するモダリティ混合集へ展開する。
多様なデータセットで加法融合や標準的な融合法を上回るエンドツーエンド学習可能なアーキテクチャを提供する。

提案手法

各モダリティを正解クラスの確率 p_i を出力するモダリティ特異的予測器で表現する。
共同でモダリティ損失を調整するために、 down-weighting factor を導入: q_i = [∏_{j≠i}(1 - p_j)]^{β/(M-1)}。
乗法的トレーニング目的関数 L_mul = -∑_i q_i log p_i を定義し、強いモダリティへの依存を促進し、弱いものを抑制する。
増強版の乗法的トレーニングバリアントを提供、ハードな例に焦点を合わせるマージンベースの損失: L = ℓ^y (1 - ∏_{ŷ≠y} 1(ℓ_mul^y + δ < ℓ_mul^{ŷ})).
すべての非空モダリティ部分集合を作成して各混合の加法表現を計算し、混合ベースの予測に対して同じ乗法的選択を適用することでモダリティ混合集を拡張する（p_c および ℓ^y の式を含む）。
加法的混合と乗法的選択を組み合わせることで、過剰適合を抑制しつつクロスモーダルシナジーを捉えると主張する。

実験結果

リサーチクエスチョン

RQ1乗法的融合アプローチはサンプルごとに弱いモダリティから情報を自動的に抑制して精度を向上させることができるか。
RQ2モダリティ混合集と乗法的選択機構を取り入れることで、純粋な加法や単一モダリティ手法よりもクロスモーダル相関をよりよく捉えられるか。
RQ3ノイズや対立するモダリティを含む多様な領域（画像認識、物理プロセス分類、ユーザプロファイリング）でこれらの方法はどのように性能を示すか。
RQ4提案された乗法および混合集フレームワークの下で、エンドツーエンド訓練がモダリティ間の成分を効果的に最適化できるか。

主な発見

乗法的融合は、タスクとアーキテクチャを問わず、単一モダリティおよび加法融合より一貫して分類精度を向上させる。
モダリティ混合集（MulMix）とその強化版（MulMix*）は、クロスモーダル相関を活用しつつ過学習を抑制してさらなる精度向上をもたらす。
これらの手法は、ResNet系と組み合わせたCIFAR-100、Higgsデータセット、Snapchatの性別予測タスクで顕著な向上を達成し、ベースラインの加法法や一部の既存のマルチモーダル手法を上回る。
他のモダリティが強い信号を提供する場合にノイズのあるモダリティの寄与を低下させることで頑健性を示し、過学習を抑制し一般化を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。