[論文レビュー] GeminiFusion: Efficient Pixel-wise Multimodal Fusion for Vision Transformer
GeminiFusion は、対応する画素位置でのクロスモーダル注意を実行することにより、整列したモダリティ(例:RGB、深度、LiDAR、イベント)を密に統合するピクセル単位の線形計算複雑度を持つマルチモーダルフュージョンモジュールを導入し、セグメンテーション、翻訳、3D検出タスクにおいて交換ベースおよび完全なクロス注意法を上回る。
Cross-modal transformers have demonstrated superiority in various vision tasks by effectively integrating different modalities. This paper first critiques prior token exchange methods which replace less informative tokens with inter-modal features, and demonstrate exchange based methods underperform cross-attention mechanisms, while the computational demand of the latter inevitably restricts its use with longer sequences. To surmount the computational challenges, we propose GeminiFusion, a pixel-wise fusion approach that capitalizes on aligned cross-modal representations. GeminiFusion elegantly combines intra-modal and inter-modal attentions, dynamically integrating complementary information across modalities. We employ a layer-adaptive noise to adaptively control their interplay on a per-layer basis, thereby achieving a harmonized fusion process. Notably, GeminiFusion maintains linear complexity with respect to the number of input tokens, ensuring this multimodal framework operates with efficiency comparable to unimodal networks. Comprehensive evaluations across multimodal image-to-image translation, 3D object detection and arbitrary-modal semantic segmentation tasks, including RGB, depth, LiDAR, event data, etc. demonstrate the superior performance of our GeminiFusion against leading-edge techniques. The PyTorch code is available at https://github.com/JiaDingCN/GeminiFusion
研究の動機と目的
- Vision transformers における現存のマルチモーダルフュージョン手法(相互作用ベースおよび交換ベース)の制限を動機づけ、分析する。
- 線形計算複雑度を有し、単一モーダル情報を保持しつつクロスモーダル相互作用を実現するピクセル単位のフュージョンモジュール GeminiF usion を提案する。
- マルチモーダルなセグメンテーション、画像間翻訳、3D物体検出タスクにおける GeminiFusion の有効性を実証する。
提案手法
- 交換ベースのトークンプルーニングと全クロス注意の批判;情報保持と効率性のトレードオフを示す。
- GeminiFusion の導入:対応する空間位置でのピクセル単位フュージョンを行い、X1[i] と X2[i] を共有/単一モーダル保持を備えた制約付きクロス注意で融合する。
- 関係ディスクリミネータと層適応ノイズを用いてクロスモーダル注意を安定化させ、自己モーダルとクロスモーダルの手がかりのバランスを取る。
- 入力トークンに対して線形計算複雑度を達成し、完全な注意と比較して FLOPs を大幅に削減(1回のフュージョンステップあたり ~17G から ~0.14G へ)。”
- SegFormer 風のエンコーダ-デコーダに GeminiFusion を組み込み、 modalities(RGB、深度、イベント、LiDAR)間で共有パラメータを用い、セグメンテーション用のMLPベースデコーダを併用する。

実験結果
リサーチクエスチョン
- RQ1ピクセル単位で空間的に整列したフュージョンは、プルーニング後の置換交換法および完全クロス注意よりも優れているのか?
- RQ2GeminiFusion をセグメンテーション、翻訳、3D 検出タスクで用いた場合、フュージョン精度と計算効率の間にどのようなトレードオフが得られるのか?
- RQ3提案された関係ディスクリミネータと層適応ノイズは、クロスモーダル相互作用と学習ダイナミクスにどのように影響するのか?
- RQ4パフォーマンスを損なうことなく、マルチモーダル GeminiFusion フレームワークにおける単一モーダルの事前学習をどの程度活用できるのか?
主な発見
| Method | Backbone | Inputs | Pixel Acc. | mAcc. | mIoU |
|---|---|---|---|---|---|
| TokenFusion | MiT-B3 | RGB+D | 79.0 | 66.9 | 54.2 |
| GeminiFusion | MiT-B3 | RGB+D | 79.9+0.9 | 69.9+3.0 | 56.8+2.6 |
| TokenFusion | MiT-B5 | RGB+D | 79.1 | 67.5 | 55.1 |
| GeminiFusion | MiT-B5 | RGB+D | 80.3+1.2 | 70.4+2.9 | 57.7+2.6 |
| TokenFusion | MiT-B3 | RGB+D (SUN RGB-D) | 82.8 | 63.6 | 51.4 |
| GeminiFusion | MiT-B3 | RGB+D (SUN RGB-D) | 83.3+0.5 | 64.6+1.0 | 52.7+1.3 |
| TokenFusion | MiT-B5 | RGB+D (SUN RGB-D) | 83.1 | 63.9 | 51.8 |
| GeminiFusion | MiT-B5 | RGB+D (SUN RGB-D) | 83.8+0.7 | 65.3+1.4 | 53.3+1.5 |
| TokenFusion | MiT-B2 | RGB+D | - | - | 63.7 |
| GeminiFusion | MiT-B2 | RGB+D | - | - | 66.4+2.7 |
| TokenFusion | MiT-B2 | RGB+E | - | - | 55.7 |
| GeminiFusion | MiT-B2 | RGB+E | - | - | 58.5+2.8 |
| TokenFusion | MiT-B2 | RGB+L | - | - | 55.5 |
| GeminiFusion | MiT-B2 | RGB+L | - | - | 58.6+3.1 |
| TokenFusion | MiT-B2 | RGB+D+E+L | - | - | 63.5 |
| GeminiFusion | MiT-B2 | RGB+D+E+L | - | - | 66.9+3.4 |
- GeminiFusion は NYUDv2、SUN RGB-D、DeLiVER におけるマルチモーダルなセマンティックセグメンテーションで TokenFusion を一貫して上回り、いくつかの設定で最大 3.4% の IoU 増分を達成。
- NYUDv2 および SUN RGB-D で、RGB+D(および他のモダリティ)をフュージョンする際の TokenFusion と比較して Pixel Acc.、mAcc、mIoU が高く、顕著な IoU 増分を達成(例:NYUDv2 で +2.6%、SUN RGB-D で +1.3%)。
- Taskonomy の画像間翻訳では、GeminiFusion が TokenFusion より多くのモダリティ対タスクでより良い FID/KID 及び MAE/MSE 指標を示す(例:Shade+Texture→RGB: 41.32 FID vs 47.31; Depth+Normal→RGB: 96.98 vs 103.87)。
- KITTI における3Dオブジェクト検出で、GeminiFusion は MVX-Net に対して小さくても一貫した改善を示し、GeminiFusion と組み合わせたとき easy/middle/hard 設定で 3D APR11/AP40 が向上。
- アブレーション研究は、有効な関係ディスクリミネータ(1x1 conv + Softmax)と学習可能な層特異ノイズが、クロスモーダル注意のバランスと性能を改善することを示す。
- GeminiFusion はモノモードのスキップ接続を保持し、トークン数に対して線形の複雑度を実現することでほぼモノモード効率を可能にし、完全クロス注意に対する FLOPs を大幅に削減する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。