[論文レビュー] Evaluation of Algorithms for Multi-Modality Whole Heart Segmentation: An Open-Access Grand Challenge
本論文は、臨床的CTおよびMRIボリューム120例にわたる21のアルゴリズムを評価するオープンアクセスのグランドチャレンジ、Multi-Modality Whole Heart Segmentation (MM-WHS) チャレンジを提示する。深層学習手法は限られたトレーニングデータでも高い正確性を達成したが、従来のマルチアトラス手法はより高い頑健性を示し、解剖学的プリオンを組み込んだ学習手法のハイブリッドモデルの必要性を浮き彫りにした。
Knowledge of whole heart anatomy is a prerequisite for many clinical applications. Whole heart segmentation (WHS), which delineates substructures of the heart, can be very valuable for modeling and analysis of the anatomy and functions of the heart. However, automating this segmentation can be arduous due to the large variation of the heart shape, and different image qualities of the clinical data. To achieve this goal, a set of training data is generally needed for constructing priors or for training. In addition, it is difficult to perform comparisons between different methods, largely due to differences in the datasets and evaluation metrics used. This manuscript presents the methodologies and evaluation results for the WHS algorithms selected from the submissions to the Multi-Modality Whole Heart Segmentation (MM-WHS) challenge, in conjunction with MICCAI 2017. The challenge provides 120 three-dimensional cardiac images covering the whole heart, including 60 CT and 60 MRI volumes, all acquired in clinical environments with manual delineation. Ten algorithms for CT data and eleven algorithms for MRI data, submitted from twelve groups, have been evaluated. The results show that many of the deep learning (DL) based methods achieved high accuracy, even though the number of training datasets was limited. A number of them also reported poor results in the blinded evaluation, probably due to overfitting in their training. The conventional algorithms, mainly based on multi-atlas segmentation, demonstrated robust and stable performance, even though the accuracy is not as good as the best DL method in CT segmentation. The challenge, including the provision of the annotated training data and the blinded evaluation for submitted algorithms on the test data, continues as an ongoing benchmarking resource via its homepage (\url{www.sdspeople.fudan.edu.cn/zhuangxiahai/0/mmwhs/}).
研究の動機と目的
- 臨床的CTおよびMRIデータを用いたマルチモodalな全身心臓セグメンテーション(WHS)のための標準化されたオープンアクセスベンチマークを確立すること。
- 同じトレーニングおよびテスト条件の下で多様なWHSアルゴリズムの性能を評価し、公平な比較を可能にすること。
- 解剖学的可変性および画像品質の変動に対処する際の、深層学習手法と従来手法の強みと弱みを特定すること。
- 今後のアルゴリズム開発および検証のため、熟練したエキスパートによる手動セグメンテーションを含む公開データセットを提供すること。
- 盲検評価フレームワークとトレーニングおよびテストデータへの継続的アクセスを提供することで、再現可能な研究を促進すること。
提案手法
- チャレンジでは、熟練したエキスパートによる手動輪郭指定を伴う、120例の三次元全身心臓ボリューム(CT 60例、MRI 60例)を用いた。
- 参加した全アルゴリズムは同一のオープンアクセスデータセットでトレーニングされ、盲検テストセットで評価されたため、公平性と再現性が保証された。
- セグメンテーションの正確性を評価するために、Dice類似係数(DSC)およびハウスドルフ距離(HD)を用い、8つの心臓部所で評価された。
- 手法には、深層学習(例:U-Netの変種)、マルチアトラスセグメンテーション、形状プリオンやマルチモダリティ情報統合を組み込んだハイブリッド手法が含まれた。
- 評価フレームワークはオンラインでホスティングされており、今後も継続的に利用可能であり、新たな提出と比較が可能である。
- 参加者は結果と詳細なアルゴリズム記述を提出したため、手法論的分析と再現性が可能となった。
実験結果
リサーチクエスチョン
- RQ1深層学習ベースのWHS手法は、臨床的CTおよびMRIデータにおいて、従来のマルチアトラス手法と比べてどのように性能を発揮するか?
- RQ2限られたトレーニングデータが、WHSにおける深層学習モデルの一般化性能および頑健性に与える影響は何か?
- RQ3一部の深層学習モデルは、特定のケースで高いDiceスコアを示しても、なぜ不自然な形状を生成してしまうのか?
- RQ4画像品質のばらつきおよび解剖学的形状の多様性が、モダリティごとのセグメンテーション性能に与える影響は何か?
- RQ5深層学習と解剖学的プリオンを統合したハイブリッド手法は、セグメンテーションの安定性および正確性を向上させることができるか?
主な発見
- 深層学習ベースの手法は高いセグメンテーション正確性を達成しており、特にトップパフォーマンスのモデル(例:GUT、UB1*、UB2*)は、CTデータにおける左室および右室で平均Diceスコアが0.90以上に達した。
- 高いパフォーマンスを示したが、一部の深層学習モデルは盲検評価において一般化が悪く、小さなデータセットでの過学習のため、不自然な形状を生成した。
- 従来のマルチアトラスセグメンテーション手法は、被験者間でより安定的かつ一貫したパフォーマンスを示したが、最良の深層学習モデルほど正確ではなかった。
- 左室(LV)、右室(RV)、左房(LA)、右房(RA)の4つの心腔のセグメンテーションは、すべての手法で一般的に正確だったが、大動脈(AO)、肺動脈(PA)は依然として困難であり、特にMRIでは顕著だった。
- チャレンジの結果、MRIにおけるWHSはCTにおけるWHSよりも困難であることが判明した。主な要因は、画像品質の低さ、コントラストの不一致、および解剖学的形状の多様性の高さにある。
- オープンアクセスデータセットと評価プラットフォームは、今後も継続的に研究のベンチマークとして機能しており、結果とデータは今後も公開され、継続的なアルゴリズム開発および比較に利用可能である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。