[論文レビュー] TSJNet: A Multi-modality Target and Semantic Awareness Joint-driven Image Fusion Network
TSJNet はセグメンテーションと検出タスクの二重指示の下、赤外と可視画像を融合し、融合品質と下流の検出/セマンティックセグメンテーションの性能を向上させる。
This study aims to address the problem of incomplete information in unimodal images for semantic segmentation and object detection tasks. Existing multimodal fusion methods suffer from limited capability in discriminative modeling of multi-scale semantic structures and salient target regions, which further restricts the effective fusion of task-related semantic details and target information across modalities. To tackle these challenges, this paper proposes a novel fusion network termed TSJNet, which leverages the semantic information output by high-level tasks in a joint manner to guide the fusion process. Specifically, we design a multi-dimensional feature extraction module with dual parallel branches to capture multi-scale and salient features. Meanwhile, a data-agnostic spatial attention module embedded in the decoder dynamically calibrates attention allocation across different data domains, significantly enhancing the model's generalization ability. To optimize both fusion and advanced visual tasks, we balance performance by combining fusion loss with semantic losses. Additionally, we have developed a multimodal unmanned aerial vehicle (UAV) dataset covering multiple scenarios (UMS). Extensive experiments demonstrate that TSJNet achieves outstanding performance on five public datasets (MSRS, M extsuperscript{3}FD, RoadScene, LLVIP, and TNO) and our UMS dataset. The generated fusion results exhibit favorable visual effects, and compared to state-of-the-art methods, the mean average precision (mAP@0.5) and mean intersection over union (mIoU) for object detection and segmentation, respectively, improve by 7.97\% and 10.88\%.The code and the dataset has been publicly released at https://github.com/XylonXu01/TSJNet.
研究の動機と目的
- 下流タスクからの高レベルな意味情報とターゲット情報を活用してMMIFを改善する動機付け。
- セグメンテーションと検出によって導かれる融合ネットワークを開発してモダリティ間特徴統合を強化する。
- 局所およびグローバルなモダリティ間ディテールを捉える効率的な特徴抽出と融合スキームを設計する。
- 融合出力を下流のセグメンテーションと検出性能に整合させる損失を組み込む。
提案手法
- 赤外画像と可視画像からクロスモーダル特徴を抽出するResNeStブロックに基づくエンコーダ。
- Neighborhood Attention Transformer (NAT) と Detail Salience Module (DSM) を含む二つの分岐を持つ局所的重要特徴量(LSM)融合層で、局所/グローバルなディテールを捉える。
- メタ学習に触発された空間注意を用いたクロスモーダル情報伝達を実現するResNeStベースのデコーダ。
- 融合品質、物体検出、セマンティックセグメンテーションを同時最適化する損失(多面的融合損失、検出損失、セグメンテーション損失)。
- DeepLabV3+ から統合された意味的損失を用いて融合出力の意味的一貫性を強化。
- 基礎となる式には、統一目的関数 L_all = L_MFF + L_Det + L_Seg、および L_MFF は L_div, L_ssim, L_mse の項から構成される。
実験結果
リサーチクエスチョン
- RQ1検出とセグメンテーションによるマルチタスクの指導は、単一タスクの融合モデルを超えて多モーダル画像融合の品質を向上させるか?
- RQ2提案された局所的重要特徴抽出モジュールは、クロスモーダル特徴相互作用と下流タスクの性能を向上させるか?
- RQ3検出とセグメンテーションの損失と共に融合を同時最適化することの、下流の物体検出と意味的セグメンテーションに及ぼす影響は?
- RQ4MSRS、M3FD、RoadScene、LLVIP の複数公開データセットで、TSJNet が最先端の融合法と比較してどう機能するか?
主な発見
| 手法 | SSIM | PSNR | MSE | VIF | CC | CV |
|---|---|---|---|---|---|---|
| ReC | 0.30 | 16.38 | 2005.55 | 0.31 | 0.56 | 319.06 |
| CDD | 0.68 | 16.23 | 2437.54 | 0.44 | 0.60 | 230.35 |
| LRR | 0.59 | 16.61 | 2039.84 | 0.33 | 0.51 | 613.42 |
| TarD | 0.46 | 16.99 | 1941.00 | 0.34 | 0.46 | 2342.74 |
| IGN | 0.56 | 17.22 | 1811.24 | 0.32 | 0.65 | 903.80 |
| Sup | 0.50 | 14.05 | 4717.51 | 0.24 | 0.27 | 1667.85 |
| DIV | 0.34 | 8.51 | 9613.72 | 0.18 | 0.57 | 1364.19 |
| TSJNet | 0.69 | 18.13 | 1502.60 | 0.62 | 344.20 | |
| ReC | 0.67 | 14.11 | 2989.60 | 0.33 | 0.51 | 496.54 |
| CDD | 0.69 | 13.04 | 4035.47 | 0.37 | 0.52 | 501.84 |
| LRR | 0.70 | 14.48 | 2722.86 | 0.36 | 0.53 | 678.53 |
| TarD | 0.68 | 13.74 | 3385.62 | 0.39 | 0.44 | 1271.50 |
| IGN | 0.58 | 12.11 | 4649.93 | 0.24 | 0.52 | 1020.07 |
| Sup | 0.69 | 12.98 | 4019.42 | 0.40 | 0.47 | 598.91 |
| DIV | 0.59 | 10.44 | 6362.27 | 0.25 | 0.68 | 645.38 |
| TSJNet | 0.70 | 14.63 | 2714.86 | 0.33 | 0.53 | 524.41 |
| ReC | 0.72 | 15.40 | 2404.92 | 0.32 | 0.62 | 460.00 |
| CDD | 0.67 | 14.03 | 3077.02 | 0.25 | 0.63 | 426.30 |
| LRR | 0.58 | 11.82 | 4401.71 | 0.24 | 0.62 | 629.70 |
| TarD | 0.69 | 14.82 | 2603.71 | 0.31 | 0.58 | 1255.83 |
| IGN | 0.52 | 10.31 | 6693.45 | 0.28 | 0.60 | 1033.15 |
| Sup | 0.74 | 14.51 | 2928.35 | 0.34 | 0.60 | 420.00 |
| DIV | 0.61 | 13.86 | 3033.92 | 0.19 | 0.62 | 907.78 |
| TSJNet | 0.70 | 14.52 | 2544.58 | 0.33 | 0.64 | 516.82 |
| ReC | 0.42 | 14.64 | 2281.86 | 0.30 | 0.69 | 302.05 |
| CDD | 0.64 | 14.58 | 2315.02 | 0.41 | 0.68 | 332.29 |
| LRR | 0.59 | 15.93 | 1688.62 | 0.39 | 0.68 | 580.90 |
| TarD | 0.56 | 14.33 | 2508.97 | 0.41 | 0.65 | 1095.24 |
| IGN | 0.55 | 14.97 | 2137.50 | 0.24 | 0.68 | 638.59 |
| Sup | 0.64 | 14.62 | 2306.66 | 0.38 | 0.68 | 360.89 |
| DIV | 0.46 | 10.44 | 6362.27 | 0.25 | 0.68 | 645.38 |
| TSJNet | 0.64 | 15.97 | 1697.69 | 0.37 | 0.67 | 457.46 |
- TSJNet は、公開データセット上で7つのSOTA手法と比較して物体検出の下流の mAP@0.5 およびセマンティックセグメンテーションの mIoU をそれぞれ平均で 2.84%、7.47% 向上させた。
- MSRS, M3FD, RoadScene, LLVIP で、TSJNet は複数のベースラインにわたり優れた融合指標(SSIM, PSNR, MSE, VIF, CC, CV)を提供。
- アブレーション研究は DSM およびデュアル検出/セグメンテーション損失が融合品質と下流タスクの性能を有意に改善することを示した。
- 融合出力はエッジとテクスチャをより良く保持し、挑戦的なシーンで検出がより堅牢になり、セグメンテーションが正確になる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。