Skip to main content
QUICK REVIEW

[논문 리뷰] Classification of Multiple Diseases on Body CT Scans Using Weakly Supervised Deep Learning- Model weights

Fakrul Islam Tushar, Vincent M. D’Anniballe|arXiv (Cornell University)|2020. 08. 03.
Radiomics and Machine Learning in Medical Imaging참고 문헌 33인용 수 19
한 줄 요약

이 연구는 체재 CT 영상에서 복수의 질환 분류를 위한 약한 감독 기반 딥러닝 모델을 개발한다. 방사선 검사 보고서에서 자동으로 추출한 레이블을 사용하여, 13,000건 이상의 CT 검사에 규칙 기반 알고리즘을 적용한 결과, 폐/엽막, 간/-vesicle, 신장/요관의 3개 기관계에서 15개 질환 레이블에 대해 AUC가 0.65에서 0.97 사이로 다양하게 나타났다. 이는 수동 레이블링이 필요 없이도 확장 가능하고 정확한 다질환 분류가 가능함을 보여준다.

ABSTRACT

<p> </p> <h3><strong>Model Documentation: Multidisease Classification Models for Body CT Scans</strong></h3> <p>This document provides an overview and usage guidance for three deep learning models developed to perform multidisease classification on body CT scans. The models are based on 3D convolutional neural networks implemented in <strong>Python using TensorFlow</strong>, and they were trained using weak supervision derived from radiology report text.</p> <h4><strong>Background and Purpose</strong></h4> <p>These models were developed as part of a retrospective study aiming to detect multiple common disease conditions across three major organ systems—lungs and pleura, liver and gallbladder, and kidneys and ureters—using body CT scans. Labels for training were extracted using rule-based natural language processing (NLP) from radiology reports, enabling efficient training without extensive manual annotation.</p> <p>The work demonstrates how weak supervision can support the development of clinically relevant, multi-organ disease classifiers on a large scale.</p> <h4><strong>Model Summary</strong></h4> <p>Each model targets a specific organ system and predicts the presence or absence of five disease categories (four pathologies + one "no apparent disease" class):</p> <ol> <li> <p><strong>Lungs and Pleura: </strong></p> <ul> <li> <p><strong>Labels</strong>: Atelectasis, Nodule, Emphysema, Effusion, No Apparent Disease</p> </li> <li> <p><strong>Performance (AUCs)</strong>:</p> <ul> <li> <p>Atelectasis: 0.77</p> </li> <li> <p>Nodule: 0.65</p> </li> <li> <p>Emphysema: 0.89</p> </li> <li> <p>Effusion: 0.97</p> </li> <li> <p>No Apparent Disease: 0.89</p> </li> </ul> </li> </ul> </li> <li> <p><strong>Liver and Gallbladder</strong></p> <ul> <li> <p><strong>Labels</strong>: Hepatobiliary Calcification, Lesion, Dilation, Fatty Liver, No Apparent Disease</p> </li> <li> <p><strong>Performance (AUCs)</strong>:</p> <ul> <li> <p>Calcification: 0.62</p> </li> <li> <p>Lesion: 0.73</p> </li> <li> <p>Dilation: 0.87</p> </li> <li> <p>Fatty: 0.89</p> </li> <li> <p>No Apparent Disease: 0.82</p> </li> </ul> </li> </ul> </li> <li> <p><strong>Kidneys and Ureters</strong></p> <ul> <li> <p><strong>Labels</strong>: Stone, Atrophy, Lesion, Cyst, No Apparent Disease</p> </li> <li> <p><strong>Performance (AUCs)</strong>:</p> <ul> <li> <p>Stone: 0.83</p> </li> <li> <p>Atrophy: 0.92</p> </li> <li> <p>Lesion: 0.68</p> </li> <li> <p>Cyst: 0.70</p> </li> <li> <p>No Apparent Disease: 0.79</p> </li> </ul> </li> </ul> </li> </ol> <p>The models were trained on CT data from over 13,000 scans and evaluated on a subset of 2,158 volumes with 2,875 manually validated reference labels. Automated label extraction achieved between 91%–99% accuracy during internal validation.</p> <h4><strong>Implementation Details</strong></h4> <ul> <li> <p><strong>Programming Language</strong>: Python</p> </li> <li> <p><strong>Framework</strong>: TensorFlow</p> </li> <li> <p><strong>Model Type</strong>: 3D Convolutional Neural Network (CNN)</p> </li> <li> <p><strong>Preprocessing</strong>: Organ segmentation (via DenseVNet), intensity normalization, and cropping of CT volumes to organ-specific regions of interest.</p> </li> </ul> <h4><strong>Repository Links</strong></h4> <p>The source code, model weights, and usage instructions will be made publicly available through:</p> <ul> <li> <p><strong>GitHub Repository</strong>: https://github.com/fitushar/multi-label-weakly-supervised-classification-of-body-ct</p> </li> <li> <p><strong>GitLab Repository</strong>: https://gitlab.oit.duke.edu/railabs/LoGroup/multi-label-weakly-supervised-classification-of-body-ct</p> </li> </ul> <p>These repositories include:</p> <ul> <li> <p>Model loading and inference scripts</p> </li> <li> <p>Preprocessing pipeline details</p> </li> <li> <p>Instructions for applying the model to new CT data</p> </li> <li> <p>Evaluation tools and AUC reporting scripts</p> </li> </ul> <h4><strong>License and Citation</strong></h4> <p>These models are released for academic research purposes only. If you use them in your work, please cite the original study. Citation details will be provided in the repository README.</p>

연구 동기 및 목표

  • 수동 레이블링의 한계를 극복하기 위해 체재 CT에 대한 다질환 분류 모델을 개발하기 위해.
  • 기존의 방사선 검사 보고서를 활용해 약한 감독을 적용함으로써 고비용 수동 레이블링에 대한 의존도를 줄이기 위해.
  • 폐, 간, 신장 등의 다양한 질환 유형을 포함한 다기관 시스템에서 다중 레이블 분류를 가능하게 하기 위해.
  • 규칙 기반 레이블 추출의 정확성과 실제 이질적인 CT 데이터에서의 모델 성능을 검증하기 위해.
  • 임상 영상 분야에서 확장 가능하고 자동화된 딥러닝 파이프라인의 실현 가능성을 입증하기 위해.

제안 방법

  • 13,667건의 방사선 검사 보고서의 소견 항목에서 키워드 매칭과 否정 논리(부정)를 활용한 규칙 기반 알고리즘이 질환 레이블을 추출하였다.
  • 수동 검증을 통해 15개 질환 카테고리에서 91–99%의 정확도를 확보하였다.
  • 폐/엽막, 간/-vesicle, 신장/요관에 대해 각각 독립적으로 3개의 3D DenseVNet 모델을 훈련시켰다.
  • 각 모델은 기관계에서 다섯 가지 질환과 '명백한 질환 없음'을 포함해 총 여섯 가지 레이블을 분류하였다.
  • 모델는 계산 비용을 줄이면서도 진단적 세부 정보를 유지하기 위해 2 mm × 2 mm × 2 mm 등방성 볼륨을 사용하였다.
  • 성능 평가는 DeLong 방법을 이용한 95% 신뢰구간을 포함한 수신기작동특성(ROC) AUC로 평가되었다.

실험 결과

연구 질문

  • RQ1방사선 검사 보고서에서 규칙 기반 레이블 추출이 체재 CT의 다양한 복부 및 흉부 질환에 대해 높은 정확도를 달성할 수 있는가?
  • RQ2약한 감독 기반 3D CNN이 최소한의 수동 레이블링 데이터로 다수의 기관계에서 일반화 가능한가?
  • RQ3체재 CT에서 국소성 질환과 광범위성 질환 간에 모델 성능은 어떻게 달라지는가?
  • RQ4지역화나 수동 세그멘테이션 없이 텍스트 기반 레이블만으로 다질환 분류를 효과적으로 달성할 수 있는가?
  • RQ5이미지 해상도와 스캔 프로토콜이 다양한 질환 유형에 대한 모델 성능에 미치는 영향은 무엇인가?

주요 결과

  • 수동 검증을 통해 규칙 기반 레이블 추출이 91–99%의 정확도를 확보하여 약한 감독의 신뢰성을 확인하였다.
  • 폐 및 엽막 모델은 AUC가 각각 0.77(실질화), 0.65(결절), 0.89(기흉), 0.97(출혈), 0.89(질환 없음)를 기록하였다.
  • 간 및 담낭 모델은 AUC가 각각 0.62(섬유화), 0.73(손상), 0.87(확장), 0.89(지방변성), 0.82(질환 없음)를 기록하였다.
  • 신장 및 요관 모델은 AUC가 각각 0.83(결석), 0.92(위축), 0.68(손상), 0.70(낭종), 0.79(질환 없음)를 기록하였다.
  • 광범위성 질환(예: 기흉, 지방간)의 경우 국소성 질환(예: 결절, 손상)보다 성능이 높았지만, 신장 결석은 전용 프로토콜 덕분에 높은 AUC(0.83)를 기록하였다.
  • 이 방법은 수동 레이블링에 대한 의존도를 줄이고, 자유형 텍스트 보고서만을 사용하여 3개 기관계에서 확장 가능하고 자동화된 다질환 분류를 실현하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.