[論文レビュー] Med3D: Transfer Learning for 3D Medical Image Analysis
Med3D は大規模な多ドメイン3D医用セグメンテーションデータセット(3DSeg-8)を作成し、8つのデコーダを持つ異種の3D エンコーダを訓練し、肺セグメンテーション、肺結節分類、LiTS肝臓セグメンテーションへの転移性能を示し、Kinetics事前学習とスクラッチ学習を上回る。
The performance on deep learning is significantly affected by volume of training data. Models pre-trained from massive dataset such as ImageNet become a powerful weapon for speeding up training convergence and improving accuracy. Similarly, models based on large dataset are important for the development of deep learning in 3D medical images. However, it is extremely challenging to build a sufficiently large dataset due to difficulty of data acquisition and annotation in 3D medical imaging. We aggregate the dataset from several medical challenges to build 3DSeg-8 dataset with diverse modalities, target organs, and pathologies. To extract general medical three-dimension (3D) features, we design a heterogeneous 3D network called Med3D to co-train multi-domain 3DSeg-8 so as to make a series of pre-trained models. We transfer Med3D pre-trained models to lung segmentation in LIDC dataset, pulmonary nodule classification in LIDC dataset and liver segmentation on LiTS challenge. Experiments show that the Med3D can accelerate the training convergence speed of target 3D medical tasks 2 times compared with model pre-trained on Kinetics dataset, and 10 times compared with training from scratch as well as improve accuracy ranging from 3% to 20%. Transferring our Med3D model on state-the-of-art DenseASPP segmentation network, in case of single model, we achieve 94.6\% Dice coefficient which approaches the result of top-ranged algorithms on the LiTS challenge.
研究の動機と目的
- 大規模な3D医用事前学習がラベル付きデータ不足のため必要であることを動機づける。
- 大規模な多ドメイン3D医用セグメンテーションデータセット(3DSeg-8)を作成する。
- incomplete annotations を扱うために共有エンコーダとマルチブランチデコーダを備えた Med3D を設計する。
- Med3D の事前学習エンコーダがセグメンテーションと分類タスクの転移学習を改善することを示す。
- コミュニティへ事前学習済み Med3D モデルとコードを提供する。
提案手法
- 8つの3Dセグメンテーションデータセットを多様なモダリティとターゲットで3DSeg-8 に統合する。
- 空間間隔と強度を正規化してドメイン変動を削減する。
- 8つの並列デコーダブランチを持つ3Dエンコーダ(ResNet ベース)を用いて incomplete annotations を処理する。
- エンコーダを共有しデコーダがデータセットごとに専門化するマルチドメイン目的で Med3D を訓練する。
- 下流タスク(肺セグメンテーション、肺結節分類、LiTS肝臓セグメンテーション)へ Med3D エンコーダを転移する。
- Kinetics で事前学習したモデルおよび scratch からの学習と比較する。
実験結果
リサーチクエスチョン
- RQ1多ドメイン3D医用事前学習(Med3D)は臓器やモダリティを跨る普遍的な3D 特徴を学習するのか?
- RQ2Med3D の事前学習は収束を加速し、下流の3D 医用タスクの精度をKinetics や scratch 学習と比較して改善するのか?
- RQ3事前学習データの多様性(1ドメイン vs 8ドメイン)は転移性能にどのように影響するのか?
- RQ4Med3D の特徴は3D医用画像のセグメンテーションと分類の両方を改善できるのか?
- RQ5挑戦的な公開LiTS肝臓セグメンテーションタスクで Med3D はどのように機能するのか?
主な発見
| ネットワーク | 事前学習 | Seg Dice | 分類精度 |
|---|---|---|---|
| 3D-ResNet10 | TFS | 71.30% | 79.80% |
| Med3D | Med3D | 87.16% | 86.87% |
| 3D-ResNet18 | TFS | 75.22% | 80.80% |
| Kin | Kin | 83.21% | 82.83% |
| Med3D | Med3D | 89.31% | 89.90% |
| 3D-ResNet34 | TFS | 76.82% | 83.84% |
| Kin | Kin | 85.82% | 83.84% |
| Med3D | Med3D | 93.31% | 89.90% |
| 3D-ResNet50 | TFS | 71.75% | 84.85% |
| Kin | Kin | 87.11% | 74.75% |
| Med3D | Med3D | 93.31% | 89.90% |
| 3D-ResNet101 | TFS | 72.10% | 81.82% |
| Kin | Kin | 88.32% | 74.75% |
| Med3D | Med3D | 92.79% | 90.91% |
| 3D-ResNet152 | TFS | 73.29% | 73.74% |
| Kin | Kin | 88.61% | 75.76% |
| Med3D | Med3D | 92.33% | 90.91% |
| 3D-PreResNet200 | TFS | 71.29% | 76.77% |
| Kin | Kin | - | - |
| Med3D | Med3D | 93.82% | 91.92% |
- Med3D はターゲットタスクの収束を加速させ、Kinetics および scratch 学習と比較して精度を向上(いくつかのタスクで Dice が約20%近く増加)。
- 8つのドメインすべてで訓練した場合(8-domain Med3D)が単一・二・四ドメインよりも優れている。
- Med3D エンコーダの肺セグメンテーションと肺結節分類への転移は、Kin 事前学習および scratch ベースラインを上回る(複数のResNetバックボーンで) 。
- LiTS では Med3D が 94.6% Dice と 1.9 ASSD を達成し、いくつかの純粋な3D 手法や Kin の事前学習を上回る。
- DenseASPP を Med3D で強化した肝臓セグメンテーションは、単一モデルで最先端に近い Dice を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。