[論文レビュー] Factorized Multimodal Transformer for Multimodal Sequential Learning
FMTは、非同期多模態系列における同一モダリティ内およびモダリティ間のダイナミクスをモデル化する因子分解型マルチモーダル自己注意機構を導入し、CMU-MOSI、IEMOCAP、POMデータセットで最先端の結果を達成する。
The complex world around us is inherently multimodal and sequential (continuous). Information is scattered across different modalities and requires multiple continuous sensors to be captured. As machine learning leaps towards better generalization to real world, multimodal sequential learning becomes a fundamental research area. Arguably, modeling arbitrarily distributed spatio-temporal dynamics within and across modalities is the biggest challenge in this research area. In this paper, we present a new transformer model, called the Factorized Multimodal Transformer (FMT) for multimodal sequential learning. FMT inherently models the intramodal and intermodal (involving two or more modalities) dynamics within its multimodal input in a factorized manner. The proposed factorization allows for increasing the number of self-attentions to better model the multimodal phenomena at hand; without encountering difficulties during training (e.g. overfitting) even on relatively low-resource setups. All the attention mechanisms within FMT have a full time-domain receptive field which allows them to asynchronously capture long-range multimodal dynamics. In our experiments we focus on datasets that contain the three commonly studied modalities of language, vision and acoustic. We perform a wide range of experiments, spanning across 3 well-studied datasets and 21 distinct labels. FMT shows superior performance over previously proposed models, setting new state of the art in the studied datasets.
研究の動機と目的
- 言語、視覚、音声モダリティ間の非同期の時空間相互作用をモデル化する課題に動機づけ、対処する。
- FMSを用いた単一トランスフォーマーアーキテクチャ(FMT)を提案し、単一モダリティ、二者間、三者間の相互作用を捉える。
- 限られたリソースで過剰適合を回避しつつ、全時間領域受容野を持つ長距離のマルチモーダルダイナミクスをスケーラブルにモデル化できるようにする。
提案手法
- 各モダリティを単モダリティ埋め込みで表現し、位置情報を付与する。
- 因子分解型の intra/inter モーダルダイナミクスを捉えるため、複数のFactorized Multimodal Self-attentions(FMS)を含むMultimodal Transformer Layers(MTL)を用いる。
- 各FMS内で、L, V, A, LV, LA, VA, LVAの因子に対応する7つのアテンションを全シーケンス長で計算する。
- 高次元のFMS出力を扱いやすい表現に圧縮するため、1D畳み込み要約ネットワーク(S1とS2)を適用する。
- 最終的なMTL出力をGRUベースの予測器に入力し、時刻付き監督と最終系列ラベリングを行う。
- 標準的なマルチモーダル指標を用いて、CMU-MOSI、IEMOCAP、POMに対するFMTを強力なベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1単一のトランスフォーマー内の因子分解型アテンション機構は、非同期のマルチモーダル系列における単一モダリティ、二モダリティ、三モダリティの相互作用を効果的にモデル化できるか。
- RQ2コンパクトで全時間領域アテンションを用いるアーキテクチャは、感情分析・感情・パーソナリティ特性認識などの従来のマルチモーダル系列モデルより優れているか。
- RQ3MTL内のFMSユニット数を変えると、性能と学習効率はどう変化するか。
- RQ4単一モダリティ/二モダリティ/三モダリティ因子を除去した場合の全体性能への影響はどうなるか?
主な発見
| モデル | 指標 | BA | F1 | MAE | 相関 |
|---|---|---|---|---|---|
| FMT | [CMU-MOSI] | 81.5/83.5 | 81.4/83.5 | 0.837 | 0.744 |
| MulT | [CMU-MOSI] | –/– | –/– | – | – |
| RAVEN | [CMU-MOSI] | – | – | – | – |
| MARN | [CMU-MOSI] | – | – | – | – |
- FMTは CMU-MOSI におけるマルチモーダル感情分析でベースラインを上回る性能を達成(表1)。
- FMTは IEMOCAP における離散感情で Happy を除くベースラインを上回る(表2)。
- FMTは POM における16の特徴量でベースラインを上回る(表3)。
- アブレーション研究により、UNI、BI、TRIのすべての因子タイプと要約コンポーネントが最良の性能に必要であることが示される(表4)。
- MTL内のFMSユニット数を最大6まで増やすと、実験でピーク性能を達成する(表5)。
- FMTはMulTより総アテンション数が少ないにもかかわらず、同じタスクでより良い性能を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。