QUICK REVIEW

[論文レビュー] A Data-scalable Transformer for Medical Image Segmentation: Architecture, Model Efficiency, and Benchmark

Yunhe Gao, Mu Zhou|arXiv (Cornell University)|Feb 28, 2022

Radiomics and Machine Learning in Medical Imaging被引用数 64

ひとこと要約

MedFormer は、事前学習なしでスクラッチから学習するデータ規模に適応するトランスフォーマーで、CNNs や多くのトランスフォーマーを七つの公開データセットで上回り、データ効率とドメイン堅牢性が高い。

ABSTRACT

Transformers have demonstrated remarkable performance in natural language processing and computer vision. However, existing vision Transformers struggle to learn from limited medical data and are unable to generalize on diverse medical image tasks. To tackle these challenges, we present MedFormer, a data-scalable Transformer designed for generalizable 3D medical image segmentation. Our approach incorporates three key elements: a desirable inductive bias, hierarchical modeling with linear-complexity attention, and multi-scale feature fusion that integrates spatial and semantic information globally. MedFormer can learn across tiny- to large-scale data without pre-training. Comprehensive experiments demonstrate MedFormer's potential as a versatile segmentation backbone, outperforming CNNs and vision Transformers on seven public datasets covering multiple modalities (e.g., CT and MRI) and various medical targets (e.g., healthy organs, diseased tissues, and tumors). We provide public access to our models and evaluation pipeline, offering solid baselines and unbiased comparisons to advance a wide range of downstream clinical applications.

研究の動機と目的

データ中心の医用画像セグメンテーションを動機づけ、データ不足・アノテーションコスト・ドメインシフトに対処する。
事前学習なしで3D医用画像を扱える統一的でスケーラブルなトランスフォーマーのバックボーンを提案する。
アーキテクチャ的帰納バイアス、効率的なアテンション、グローバルなマルチスケールフュージョンを導入して一般化を改善する。
多様なデータセットとモダリティに対して、MedFormer を CNNs およびトランスフォーマーのベースラインと比較して評価する。

提案手法

Depthwise separable convolution を用いた射影と FFN に畳み込み型帰納バイアスを導入する。
意味マップを介してアテンション計算を2次からほぼ線形へ低減する Bidirectional Multi-Head Attention (B-MHA) を開発する。
クロススケールの文脈統合のためのグローバルなマルチスケール意味マップフュージョン機構を実装する。
畳み込みのステム、階層的な B-MHA ブロック、深部監視を伴うデコーダを備えた MedFormer を構築する。
Pre-training なしで小規模から大規模データセットまでデータスケール評価を可能にする。

実験結果

リサーチクエスチョン

RQ1スクラッチから訓練されたデータスケーラブルなトランスフォーマーは、多様な医用画像タスクで最先端のセグメンテーションを達成できるか。
RQ2B-MHA は高解像度の3Dデータに対して、グローバルな関係を保持しつつ線形またはほぼ線形のアテンション計算を実現するか。
RQ3グローバルなマルチスケール意味マップフュージョンは、計算量を過度に増大させずに境界の delineation を向上させるか。
RQ4MedFormer は、CNN や ViT ベースのモデルと比較して、見たことのないドメインやさまざまなベンダーに対してどの程度一般化するか。

主な発見

アーキテクチャ	モデル	5%	10%	40%	70%	100%
CNN	UNet	86.51	87.17	87.96	88.37	88.59
CNN	Attn UNet	86.74	87.46	88.20	88.38	88.63
CNN	UNet++	86.54	87.33	88.21	88.52	88.59
CNN	ResUNet	86.65	87.48	88.31	88.54	88.49
CNN	R50-UNet	86.42	87.48	88.39	88.59	88.72
Transformer	TransUNet	86.53	87.56	88.33	88.55	88.56
Transformer	TransUNet dagger	86.30	87.22	88.01	88.57	88.55
Transformer	SwinUNet	75.25	82.19	85.71	86.20	86.83
Transformer	SwinUNet dagger	86.71	86.91	87.61	87.70	88.01
Transformer	UTNet	86.70	87.50	88.41	88.58	88.69
MedFormer	MedFormer	87.72	87.99	88.80	88.92	89.05

MedFormer は、プリトレーニングなしで、極小規模から大規模データまでの範囲で優れた性能を達成する。
大規模心臓MRIデータセットでは、MedFormer は 5%: 87.72、10%: 87.99、40%: 88.80、70%: 88.92、100%: 89.05 の Dice スコアを達成し、複数のベースラインを上回る。
MedFormer はパラメータ数が少なく FLOPs は控えめでありながら、B-MHA により線形様の複雑さを実現して高精度を発揮する。
MedFormer はドメインシフトに対する堅牢性を示し、見慣れないドメイン C および D でも特に低データ域で高い性能を維持する。
七つの公開3Dセグメンテーションデータセットにおいて、MedFormer は nnUNet や多くのトランスフォーマーベースモデルを一貫して上回り、強い一般化能力を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。