[논문 리뷰] Evaluation of Algorithms for Multi-Modality Whole Heart Segmentation: An Open-Access Grand Challenge
이 논문은 임상 CT 및 MRI 영상 120건의 수동 분할을 포함해 21개 알고리즘을 평가하는 오픈 액세스 그랜드 챌린지인 멀티모달리티 전체 심장 분할(MM-WHS) 챌린지를 제시한다. 딥 러닝 방법은 제한된 훈련 데이터에도 불구하고 높은 정확도를 달성했지만, 기존의 다중 앤트라스 방법은 더 높은 안정성을 보였으며, 이는 학습과 해부학적 사전 지식을 융합한 하이브리드 모델의 필요성을 시사한다.
Knowledge of whole heart anatomy is a prerequisite for many clinical applications. Whole heart segmentation (WHS), which delineates substructures of the heart, can be very valuable for modeling and analysis of the anatomy and functions of the heart. However, automating this segmentation can be arduous due to the large variation of the heart shape, and different image qualities of the clinical data. To achieve this goal, a set of training data is generally needed for constructing priors or for training. In addition, it is difficult to perform comparisons between different methods, largely due to differences in the datasets and evaluation metrics used. This manuscript presents the methodologies and evaluation results for the WHS algorithms selected from the submissions to the Multi-Modality Whole Heart Segmentation (MM-WHS) challenge, in conjunction with MICCAI 2017. The challenge provides 120 three-dimensional cardiac images covering the whole heart, including 60 CT and 60 MRI volumes, all acquired in clinical environments with manual delineation. Ten algorithms for CT data and eleven algorithms for MRI data, submitted from twelve groups, have been evaluated. The results show that many of the deep learning (DL) based methods achieved high accuracy, even though the number of training datasets was limited. A number of them also reported poor results in the blinded evaluation, probably due to overfitting in their training. The conventional algorithms, mainly based on multi-atlas segmentation, demonstrated robust and stable performance, even though the accuracy is not as good as the best DL method in CT segmentation. The challenge, including the provision of the annotated training data and the blinded evaluation for submitted algorithms on the test data, continues as an ongoing benchmarking resource via its homepage (\url{www.sdspeople.fudan.edu.cn/zhuangxiahai/0/mmwhs/}).
연구 동기 및 목표
- 임상 CT 및 MRI 데이터를 활용한 멀티모달리티 전체 심장 분할(WHS)을 위한 표준화되고 오픈 액세스의 벤치마크를 구축하기 위해.
- 동일한 훈련 및 테스트 조건에서 다양한 WHS 알고리즘의 성능을 평가하여 공정한 비교를 보장하기 위해.
- 해부학적 변이성과 영상 품질 변동성을 다루는 데 있어 딥 러닝과 기존 방법 간의 강점과 한계를 규명하기 위해.
- 향후 알고리즘 개발 및 검증을 위한 전문가 수동 분할이 포함된 공개 데이터셋을 제공하기 위해.
- 맹글리드 평가 프레임워크와 훈련 및 테스트 데이터에 대한 지속적인 액세스를 제공함으로써 재현 가능한 연구를 촉진하기 위해.
제안 방법
- 챌린지는 임상 환경에서 확보한 120개의 3차원 전체 심장 영상(CT 60건, MRI 60건)과 전문가 수동 분할을 사용했다.
- 모든 참가 알고리즘은 동일한 오픈 액세스 데이터셋으로 훈련되었고, 공정성과 재현 가능성을 확보하기 위해 블라인드 테스트 세트에서 평가되었다.
- 분할 정확도 평가를 위해 8개의 심장 구조에 대해 딥 스코어 유사도 계수(DSC)와 하우스도르프 거리(HD)를 사용했다.
- 사용된 방법으로는 딥 러닝(예: U-Net 변종), 다중 앤트라스 분할, 형태 사전 지식 또는 다중 모odal리티 정보를 통합한 하이브리드 접근법이 포함되었다.
- 평가 프레임워크는 온라인으로 호스팅되었으며, 향후 제출과 비교를 가능하게 하기 위해 계속 활성화되어 있다.
- 참가자들은 결과와 상세한 알고리즘 기술서를 제출하여 방법론 분석과 재현 가능성을 보장했다.
실험 결과
연구 질문
- RQ1딥 러닝 기반 WHS 방법은 임상 CT 및 MRI 데이터에서 기존의 다중 앤트라스 방법보다 어떻게 성능을 내는가?
- RQ2제한된 훈련 데이터가 WHS에서 딥 러닝 모델의 일반화 능력과 안정성에 어떤 영향을 미치는가?
- RQ3어떤 딥 러닝 모델은 특정 경우에 높은 DSC 스코어를 기록함에도 불구하고 왜 비현실적인 형태를 생성하는가?
- RQ4영상 품질의 변동성과 해부학적 형태의 다양성이 다양한 모odal리티 간의 분할 성능에 어떤 영향을 미치는가?
- RQ5딥 러닝과 해부학적 사전 지식을 융합한 하이브리드 접근법이 분할의 안정성과 정확도를 향상시킬 수 있는가?
주요 결과
- 딥 러닝 기반 방법은 높은 분할 정확도를 달성했으며, 최고 성능을 보인 모델들(예: GUT, UB1*, UB2*)은 CT 데이터에서 좌심실과 우심실의 평균 DSC 스코어가 0.90 이상에 이를 수 있었다.
- 높은 성능에도 불구하고 일부 딥 러닝 모델은 블라인드 평가에서 일반화 능력이 열악했으며, 작은 데이터셋에서 과적합된 탓으로 보인다.
- 기존의 다중 앤트라스 분할 방법은 최고의 딥 러닝 모델보다 약간 낮은 정확도를 보였지만, 환자 간에 더 안정적이고 일관된 성능을 보였다.
- 좌심실(LV), 우심실(RV), 좌심방(LA), 우심방(RA)의 네 개 심장 구조는 모든 방법에서 일반적으로 정확하게 분할되었지만, 대동맥(AO)과 대퇴동맥(PA)과 같은 대혈관은 특히 MRI에서 여전히 도전적인 문제로 남아 있었다.
- 챌린지 결과로 MRI WHS는 CT WHS보다 더 어려운 것으로 드러났으며, 주로 영상 품질이 낮고 대조가 일관되지 않으며 해부학적 변이성이 더 크기 때문이다.
- 오픈 액세스 데이터셋과 평가 플랫폼은 향후 연구를 위한 기준으로 계속 기능하고 있으며, 결과와 데이터는 지속적으로 공개되어 있어 향후 알고리즘 개발 및 비교에 활용되고 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.