QUICK REVIEW

[論文レビュー] Multi-scale Hierarchical Vision Transformer with Cascaded Attention Decoding for Medical Image Segmentation

Md. Mostafijur Rahman, Radu Mărculescu|arXiv (Cornell University)|Mar 29, 2023

Advanced Neural Network Applications被引用数 28

ひとこと要約

本論文は MERIT、 cascaded CASCADE デコーダと MUTATION 損失統合を備えた多尺度階層的ビジョントランスフォーマーボトムーンを提案し、医用画像分割を改善する。Synapse および ACDC ベンチマークで最先端の結果を達成する。

ABSTRACT

Transformers have shown great success in medical image segmentation. However, transformers may exhibit a limited generalization ability due to the underlying single-scale self-attention (SA) mechanism. In this paper, we address this issue by introducing a Multi-scale hiERarchical vIsion Transformer (MERIT) backbone network, which improves the generalizability of the model by computing SA at multiple scales. We also incorporate an attention-based decoder, namely Cascaded Attention Decoding (CASCADE), for further refinement of multi-stage features generated by MERIT. Finally, we introduce an effective multi-stage feature mixing loss aggregation (MUTATION) method for better model training via implicit ensembling. Our experiments on two widely used medical image segmentation benchmarks (i.e., Synapse Multi-organ, ACDC) demonstrate the superior performance of MERIT over state-of-the-art methods. Our MERIT architecture and MUTATION loss aggregation can be used with downstream medical image and semantic segmentation tasks.

研究の動機と目的

医療画像分割のためのビジョン・トランスフォーマーの一般化を、多尺度・多解像度特徴の捕捉で改善する動機付け。
MERIT バックボーンを、マルチスケール自己注意と特徴 refinement のための attention-based CASCADE デコーダとともに提案。
MUTATION、トレーニング中の暗黙的アンサンブルを可能にするマルチステージ feature-mixing ロス aggregation 戦略を導入。
Synapse の多臓器および ACDC 心臓分割ベンチマークで最先端の性能を示す。
MERIT と MUTATION を下流の医用画像分割タスクへ適用可能であることを示す。

提案手法

MERIT を MaxViT に基づく多尺度階層型ビジョントランスフォーマー・バックボーンとして導入。二つの構成（Cascaded と Parallel）を採用。
Cascaded MERIT では、四つのバックボーン段階間およびデコーダ間で cascade 機構を用い、マルチスケール・マルチ解像度情報を統合。
Parallel MERIT では、マルチスケール入力を並列バックボーンで処理し、後段で特徴を集約。
CASCADE を attention ベースのデコーダとして採用し、CAM および AG 機構で多段階特徴を refinement。
4 段階の予測マップを学習可能な加法フュージョン重み（α、β、γ、ψ は 1.0 に設定）で最終出力へ統合。
MUTATION: 非空の n 個の段階予測の部分集合を混合して 2^n - 1 個の新たな予測マップを生成し、それに対応する損失を計算、追加パラメータなしで暗黙的アンサンブルを可能にする。

実験結果

リサーチクエスチョン

RQ1多尺度階層型トランスフォーマー・バックボーンは、単一スケールの注意モデルと比較して医用画像分割の一般化を改善できるか。
RQ2MERIT を attention ベースのデコーダ（CASCADE）と組み合わせると、マルチステージの特徴 refinement および分割マップが改善されるか。
RQ3単純な損失統合戦略（MUTATION）によって、マルチステージ予測を活用してトレーニングと性能を改善できるか（追加のパラメータや推論コストなし）。
RQ4提案された Cascaded および Parallel MERIT デザインは、異なる医用画像モダリティやデータセットで有効か。

主な発見

Architecture	Average DICE	Aorta	GB	Liver	PC	SP	SM	DICE	HD95
Synapse-Cascaded MERIT	84.90	13.22	—	—	—	—	—	92.01	—
Synapse-TransCASCADE	82.68	17.34	—	—	—	—	—	90.79	83.52
Synapse-Parallel MERIT	84.22	16.51	—	—	—	—	—	91.21	—
TransUNet (CNN+Transformer baseline)	75.62	31.69	87.23	63.13	81.87	77.02	94.08	55.86	75.62

MERIT は CASCADE と MUTATION を用いて Synapse の多臓器分割で最先端の結果を達成（Cascaded MERIT 平均 DICE 84.90%、HD95 13.22）。
MERIT は Synapse において TransUNet および SwinUNet より平均 DICE で 7.42%、5.57% の改善、HD95 での改善は最大 13.22 の値で示される（Best HD95 13.22）。
ACDC データセットでは Parallel MERIT が最高の Avg DICE 92.32% を達成し、RV および LV の分割で最良結果を示す（RV 90.87%、LV 96.08%）。
Cascaded MERIT は報告された手法の中で ACDC における平均性能が最も良く（Avg DICE 91.85、LV 89.53、RV 87.71）。
MUTATION は multi-stage predictions の暗黙的アンサンブルにより、推論コストや新たなハイパーパラメータを追加せずに分割性能を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。