QUICK REVIEW

[논문 리뷰] Vision Foundation Models for Computed Tomography

Suraj Pai, Ibrahim Hadžić|ArXiv.org|2025. 01. 15.

Advanced X-ray and CT Imaging인용 수 4

한 줄 요약

이 논문은 라벨 불응 학습을 사용하여 148,000개의 CT 스캔에서 사전학습된 대규모 3D CT 기본 모델 CT-FM을 소개하고, 분할, 선별, 검색, 의미 이해 작업에서 강력한 성능을 보임을 보여준다. 또한 해부학적 클러스터링, 견고성, 해석 가능성에 초점을 두며 오픈 소스 가중치, 코드, 데이터가 제공된다.

ABSTRACT

Foundation models (FMs) have shown transformative potential in radiology by performing diverse, complex tasks across imaging modalities. Here, we developed CT-FM, a large-scale 3D image-based pre-trained model designed explicitly for various radiological tasks. CT-FM was pre-trained using 148,000 computed tomography (CT) scans from the Imaging Data Commons through label-agnostic contrastive learning. We evaluated CT-FM across four categories of tasks, namely, whole-body and tumor segmentation, head CT triage, medical image retrieval, and semantic understanding, showing superior performance against state-of-the-art models. Beyond quantitative success, CT-FM demonstrated the ability to cluster regions anatomically and identify similar anatomical and structural concepts across scans. Furthermore, it remained robust across test-retest settings and indicated reasonable salient regions attached to its embeddings. This study demonstrates the value of large-scale medical imaging foundation models and by open-sourcing the model weights, code, and data, aims to support more adaptable, reliable, and interpretable AI solutions in radiology.

연구 동기 및 목표

방사선학 및 CT 영상에서 기반 모델의 활용을 촉진한다.
레이블 비의존 데이터로 사전 학습된 대규모 3D CT 기본 모델(CT-FM)을 개발한다.
다양한 방사선 의학 작업에서 CT-FM을 평가하여 성능과 견고성을 입증한다.
CT-FM 임베딩의 해부학적 클러스터링 및 해석 가능성을 시연한다.
가중치, 코드 및 데이터를 커뮤니티에 공개하여 오픈 사이언스를 촉진한다.

제안 방법

Imaging Data Commons의 148,000 CT 스캔에서 대규모 3D CT 모델(CT-FM)을 사전 학습한다.
레이블 불응 대조 학습을 사용하여 CT 볼륨 전반의 표현을 학습한다.
네 가지 작업 범주에서 CT-FM을 평가한다: 전신 및 종양 분할, 두부 CT 선별, 의학 영상 검색, 의미 이해.
임베딩 공간을 분석하여 해부학적 클러스터링과 스캔 간 개념 유사성을 확인한다.
테스트-재테스트 설정에서의 견고성을 평가하고 임베딩과 연관된 중요한 영역을 식별한다.
재현성과 광범위한 활용을 지원하기 위해 모델 가중치, 코드 및 데이터를 오픈 소스로 제공한다.

실험 결과

연구 질문

RQ1레이블 불응 대조 학습으로 학습된 3D CT 기본 모델이 다양한 방사선 의학 작업에서 최첨단 또는 우수한 성능을 달성할 수 있는가?
RQ2CT-FM은 해부학적 클러스터링 및 스캔 간 개념 유사성을 포함하여 견고하고 해석 가능한 임베딩을 나타내는가?
RQ3테스트-재테스트 설정 및 다양한 임상 작업에서 CT-FM의 일반화 및 신뢰성은 어느 정도인가?
RQ4CT-FM 자원의 오픈 소스화가 재현성과 후속 방사선 AI 개발에 어떤 영향을 미치는가?

주요 결과

CT-FM은 분할, 선별, 검색, 의미 이해 작업에서 최첨단 모델에 비해 우수한 성능을 달성한다.
모델 임베딩은 해부학적으로 군집화되고 스캔 간 유사한 개념을 포착한다.
CT-FM은 테스트-재테스트 시나리오에서 견고함을 보인다.
임베딩은 의미 있는 해부학적 영역에 해당하는 합리적인 주목도를 보인다.
CT-FM 가중치, 코드 및 데이터를 오픈 소스로 제공하면 더 적응적이고 해석 가능한 방사선학 AI를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.