QUICK REVIEW

[論文レビュー] Efficient automatic segmentation for multi-level pulmonary arteries: The PARSE challenge

Gongning Luo, Kuanquan Wang|arXiv (Cornell University)|Apr 7, 2023

Medical Imaging and Pathology Studies被引用数 10

ひとこと要約

PARSE ベンチマークは、CTPAで同時に主PAと分岐PAのセグメンテーションを実現する手法を評価し、マルチレベル評価と公開データセットを用いて精度と推論効率のバランスを取る。トップチームは新規アーキテクチャ、データ戦略、効率化の工夫を組み合わせ、DiceとHD95を最適化しつつ実行時間とGPUメモリを最小化。

ABSTRACT

Efficient automatic segmentation of multi-level (i.e. main and branch) pulmonary arteries (PA) in CTPA images plays a significant role in clinical applications. However, most existing methods concentrate only on main PA or branch PA segmentation separately and ignore segmentation efficiency. Besides, there is no public large-scale dataset focused on PA segmentation, which makes it highly challenging to compare the different methods. To benchmark multi-level PA segmentation algorithms, we organized the first \textbf{P}ulmonary \textbf{AR}tery \textbf{SE}gmentation (PARSE) challenge. On the one hand, we focus on both the main PA and the branch PA segmentation. On the other hand, for better clinical application, we assign the same score weight to segmentation efficiency (mainly running time and GPU memory consumption during inference) while ensuring PA segmentation accuracy. We present a summary of the top algorithms and offer some suggestions for efficient and accurate multi-level PA automatic segmentation. We provide the PARSE challenge as open-access for the community to benchmark future algorithm developments at \url{https://parse2022.grand-challenge.org/Parse2022/}.

研究の動機と目的

同時に主PAと分岐PAをセグメンテーションするための、公開された大規模ベンチマークを確立・動機づける。
臨床適用のニーズを反映するため、精度と効率を一体で評価する。
高性能手法から得られる洞察とガイドラインを提供し、効率的な多レベルPAセグメンテーションを推進する。

提案手法

肺外の主PAと肺内の分岐PAという二レベルのセグメンテーションベンチマークを、分重付きスコア（分岐80%、主20%）で提供する。
精度にはDSCとHD95を用い、効率には実行時間とGPUメモリを用いる。
外部データや事前学習モデルの使用を厳格に禁じ、訓練・検証・テスト段階を組織する；最終結果にはDocker提出を要求する。
重み付きDSC、重み付きHD95、RT、GPUを組み合わせて四つのmMetricランキングを算出し、最終スコアとする。
複数センター・ベンダーにまたがる1 mm CTスライスを含む203名の対象を用いたPARSEデータセットを公開する。

実験結果

リサーチクエスチョン

RQ1臨床レベルの効率を維持しつつ、CTPAで自動セグメンテーションが主PAと分岐PAの両方を信頼性高く分割できるか？
RQ2多レベル血管セグメンテーションで精度と速度のバランスをとる最も効果的な戦略は何か？
RQ3様々なアルゴリズム的手法（例：U-Net系の変種、スケルトンベースデコード、多段パイプライン）が主PAと分岐PAの性能に与える影響はどうなるか？
RQ4データセットのばらつき、アノテーションノイズ、トップパフォーマンス手法から今後の研究を導く洞察は何か？

主な発見

チーム	主PA DSC (%)	分岐PA DSC (%)	重み付きPA DSC (%)	HD95 主PA (mm)	HD95 分岐PA (mm)	HD95 重み付きPA (mm)	RT (s/ケース)	GPU (MB)
T1	89.70±6.46	77.19±8.32	79.69±6.95	7.08	4.80	5.26	7.92	1674
T2	91.71±4.00	76.67±8.39	79.68±6.94	4.83	4.74	4.75	18.61	3658
T3	91.57±4.25	76.86±7.94	79.80±6.61	4.99	5.46	5.36	14.53	6300
T4	89.50±6.58	75.53±8.85	78.33±7.49	6.76	4.92	5.29	6.63	3326
T5	89.98±4.94	76.76±7.88	79.40±6.38	7.74	5.70	6.10	63.11	2828
T6	90.05±5.65	76.76±8.15	79.42±6.89	8.38	5.44	6.03	25.55	8176
T7	90.49±5.13	76.57±8.29	79.36±6.80	6.37	4.56	4.92	263.24	3658
T8	90.83±4.68	76.25±8.29	79.17±6.80	9.19	5.17	5.98	57.57	4120
T9	90.29±5.04	76.53±8.33	79.28±6.87	6.50	5.36	5.58	55.71	9303
T10	90.45±5.20	76.10±8.71	78.97±7.16	6.18	4.93	5.18	380.57	3472
T11	90.08±5.37	75.71±8.68	78.58±7.29	9.19	4.94	5.79	88.93	3658
T12	89.69±5.30	75.46±8.40	78.31±6.94	31.65	5.91	11.06	7.74	4298
T13	90.12±4.82	74.30±9.06	77.46±7.53	18.43	5.52	8.10	51.14	2800
T14	90.55±4.63	68.86±9.70	73.20±7.97	6.24	17.26	6.32	8.11	1894
T15	90.55±5.13	76.29±8.58	79.15±7.12	6.05	4.71	4.98	218.82	10242
T16	90.34±4.86	74.98±8.78	78.05±7.17	6.50	5.18	5.44	116.40	4988
T17	89.87±5.04	70.00±9.79	73.98±8.08	6.96	8.81	8.44	4.21	8230
T18	90.19±4.43	71.30±8.83	75.08±7.28	6.13	7.84	7.50	224.22	2328
T19	89.74±4.85	70.41±7.91	74.28±6.63	7.20	15.87	14.13	172.93	2640
T20	89.84±4.85	75.29±7.52	78.20±6.19	20.65	8.28	10.75	80.11	9424
T21	89.80±5.24	74.76±8.56	77.77±7.14	11.77	6.10	7.24	76.69	12288
T22	90.55±4.94	76.05±8.31	78.95±6.89	9.14	5.22	6.00	3178.75	0
T23	80.65±9.56	62.53±7.19	66.15±6.42	140.75	11.24	37.15	48.22	21996
T24	82.65±25.41	69.37±22.35	72.02±22.61	-	-	-	419.20	3349
T25	85.79±18.82	69.78±16.40	72.98±16.52	65.12	-	-	111.50	9784

トップ手法は主PAで平均DSC約89–91%、分岐PAで約68–77%、重み付きPA DSCは約79–80%を達成。
HD95はチーム間で分岐PAを支持する傾向で、主PA領域の難易度の高さを示している。
優れた手法は精度と効率のバランスをとる。高速性（RT）やメモリ（GPU）を優先するものもあれば、精度を重視するものもあり、指標の重視度によってランキングの安定性が変わる。
最終ランキングはDSC、HD95、RT、GPUの四指標を統合し、分岐PAをより重く（80%）重み付けして、堅牢な多レベル評価を可能にする。
セグメンテーション品質と推論効率の間にはトレードオフがある。高い精度に近づく一方でGPU/メモリコストが高いチームもあれば、実行時間を最適化しつつ精度を小幅に変更するチームもある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。