[論文レビュー] TransFuse: Fusing Transformers and CNNs for Medical Image Segmentation
TransFuse は、BiFusion フュージョンモジュールを備えた並列の CNN と Transformer アーキテクチャを導入し、低レベルのディテールとグローバルな文脈を共同で捉えることで、医用画像分割における最先端の成果を、パラメータ数を抑えつつ推論を高速化して達成します。
Medical image segmentation - the prerequisite of numerous clinical needs - has been significantly prospered by recent advances in convolutional neural networks (CNNs). However, it exhibits general limitations on modeling explicit long-range relation, and existing cures, resorting to building deep encoders along with aggressive downsampling operations, leads to redundant deepened networks and loss of localized details. Hence, the segmentation task awaits a better solution to improve the efficiency of modeling global contexts while maintaining a strong grasp of low-level details. In this paper, we propose a novel parallel-in-branch architecture, TransFuse, to address this challenge. TransFuse combines Transformers and CNNs in a parallel style, where both global dependency and low-level spatial details can be efficiently captured in a much shallower manner. Besides, a novel fusion technique - BiFusion module is created to efficiently fuse the multi-level features from both branches. Extensive experiments demonstrate that TransFuse achieves the newest state-of-the-art results on both 2D and 3D medical image sets including polyp, skin lesion, hip, and prostate segmentation, with significant parameter decrease and inference speed improvement.
研究の動機と目的
- CNN が医用画像分割におけるグローバルな文脈のモデリングと局所的な細部の保持における制限に対処する。
- 効率的な特徴融合のための BiFusion モジュールを備えた並列 CNN-Transformer アーキテクチャ(TransFuse)を提案する。
- BiFusion を用いた並列ブランチが、パラメータ数を抑えつつ高速な推論で強力なセグメンテーション性能を生み出すことを示す。
- 多様な 2D/3D 医用データセット(ポリープ、皮膚病変、股関節、前立腺)で最先端の結果を示す。
提案手法
- 2 つの並列ブランチが異なる方法で情報を処理する:局所的な空間的ディテールを強調する CNN ブランチと、グローバルな文脈をモデル化する Transformer ブランチ。
- BiFusion モジュールは、両ブランチの多段階特徴をチャネル・空間アテンションと Hadamard 積を用いて融合する。
- アテンションベースのスキップ接続を用いた遅融合が、融合特徴を集約してセグメンテーションマップを生成する。
- 損失は、重み付き IoU と重み付き二値交差エントロピーを、ブランチ間での深い監視を伴う、組み合わせとして用いる。
- Variations(TransFuse-S、TransFuse-L、TransFuse-L*)は、異なるバックボーンの選択(CNN + DeiT/ViT バックボーン)を探索する。
実験結果
リサーチクエスチョン
- RQ1非常に深いネットワークを用いずに、並列の CNN および Transformer ブランチは医用画像分割において補完的な情報を捉えることができるのか?
- RQ2BiFusion モジュールは、CNN と Transformer の多段階特徴をどれだけ効果的に融合できるのか?
- RQ3提案された TransFuse バリエーションは、さまざまな 2D/3D 医用分割タスクにおいて精度と効率を向上させるのか?
- RQ4ポリープ、皮膚病変、股関節、前立腺のセグメンテーションデータセットにおける TransFuse の性能はどうか?
主な発見
- TransFuse は複数の 2D および 3D 医用分割タスク(ポリープ、皮膚病変、股関節、前立腺)で最先端の結果を達成する。
- 並列トランスフォーマー ブランチを活用することで、単一ブランチ CNN のダウンサンプリングを削減し、グローバルな文脈が改善された全体モデルを浅くする。
- TransFuse-S は約 26.3M パラメータで競争力のある、または優れた性能を達成し、高速推論を実現(例:RTX 2080 Ti で 98.7 FPS)。
- TransFuse-L* は難易度の高いポリープデータセットで TransUnet より性能を向上させつつ、効率性も良好を維持(例:約 45.3 FPS)。
- ISIC 2017 皮膚病変データで TransFuse-S が強力な指標を達成(例: pretrained バックボーンで Jaccard/Dice 約 0.795/0.872)。
- アブレーション研究は、BiFusion モジュールと並列ブランチ設計が、逐次融合や単純な結合戦略より性能向上に寄与することを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。