[논문 리뷰] Can Large Language Models Challenge CNNs in Medical Image Analysis?
이 논문은 의료 영상 분류에서 CNN과 LLM(GPT-4o 및 Llama3.2-vision)을 비교하고 X-레이, MRI, CT 데이터셋에서 CNN이 일반적으로 우수하다고 보이며, 데이터 필터링 강화가 LLM의 성능과 효율성을 개선한다.
This study presents a multimodal AI framework designed for precisely classifying medical diagnostic images. Utilizing publicly available datasets, the proposed system compares the strengths of convolutional neural networks (CNNs) and different large language models (LLMs). This in-depth comparative analysis highlights key differences in diagnostic performance, execution efficiency, and environmental impacts. Model evaluation was based on accuracy, F1-score, average execution time, average energy consumption, and estimated $CO_2$ emission. The findings indicate that although CNN-based models can outperform various multimodal techniques that incorporate both images and contextual information, applying additional filtering on top of LLMs can lead to substantial performance gains. These findings highlight the transformative potential of multimodal AI systems to enhance the reliability, efficiency, and scalability of medical diagnostics in clinical settings.
연구 동기 및 목표
- 다양한 의료 영상 데이터셋(X-ray, MRI, CT)에서 CNN과 LLM을 벤치마크한다.
- CNN과 LLM의 계산 효율성 및 환경 영향을 분석한다.
- LM의 분류 신뢰도와 효율성을 개선하기 위한 강화된 데이터 필터링을 조사한다.
- 임상 설정에서 모델 예측의 신뢰도 보정 및 신뢰성 평가를 수행한다.
제안 방법
- 가슴 흉부 X-레이, 뇌 MRI, 흉부 CT 데이터셋에서 CNN 및 LLM 아키텍처(GPT-4o, Llama3.2-vision)를 평가한다.
- 정확도, F1-점수, 평균 신뢰도 점수를 성능 지표로 사용한다.
- 자원 효율성을 위해 평균 실행 시간, 에너지 소비, 추정 CO2 배출량을 측정한다.
- 맥락 특성 및 표적 질문을 활용한 다단계 데이터 필터링 파이프라인을 구현하여 LLM 분류를 개선한다.

실험 결과
연구 질문
- RQ1다양한 의료 영상 모달리티에서 CNN과 LLM의 정확도 및 F1-점수 차이는 어떻게 나타나는가?
- RQ2CNN과 LLM의 예측 성능과 계산 자원 사용 간의 트레이드오프는 무엇인가?
- RQ3강화된 데이터 필터링이 의료 영상 작업에서 LLM의 진단 성능과 효율성을 향상시킬 수 있는가?
- RQ4신뢰 점수에 따른 LLM 예측의 신뢰성은 CNN과 비교해 얼마나 되는가?
주요 결과
| 데이터셋 | 모델 | 정확도 | F-1 | 평균 신뢰도 점수 |
|---|---|---|---|---|
| Chest X-ray | CNN | 0.83 | 0.83 | 0.79 |
| Chest X-ray | GPT-4o | 0.62 | 0.54 | 0.93 |
| Chest X-ray | Llama3.2-vision | 0.65 | 0.64 | 0.92 |
| MRI | CNN | 0.98 | 0.99 | 0.99 |
| MRI | GPT-4o | 0.60 | 0.58 | 0.93 |
| MRI | Llama3.2-vision | 0.52 | 0.51 | 0.85 |
| Chest CT | CNN | 0.91 | 0.90 | 0.94 |
| Chest CT | GPT-4o | 0.22 | 0.14 | 0.91 |
| Chest CT | Llama3.2-vision | 0.50 | 0.48 | 0.80 |
- CNN은 세 가지 모듈레이션 모두에서 정확도와 F1-점수에서 LLM보다 우수하다(Chest X-ray: CNN 0.83 vs. GPT-4o 0.62; MRI: CNN 0.98+ vs. GPT-4o 0.60; Chest CT: CNN 0.91 vs. GPT-4o 0.22).
- GPT-4o는 CNN보다 평균 신뢰도 점수가 높지만 정확도는 훨씬 낮아 오류에서 과신하는 경향을 보인다.
- Llama3.2-vision은 상대적으로 보통의 정확도(CHest X-ray 0.65; MRI 0.52; Chest CT 0.50)와 상대적으로 높은 신뢰도 점수를 보이나 CNN 성능에는 미치지 못한다.
- 맥락 질문을 포함한 LLM에 대한 강화된 데이터 필터링은 Chest X-ray 정확도를 62%에서 82.01%로 올리고 평균 실행 시간을 6.23s에서 2.35s, 에너지를 1.84에서 1.65 W-H로 줄인다.
- CNN은 데이터셋 전반에서 가장 우수한 계산 효율성(가장 짧은 실행 시간, 에너지 사용, CO2 배출)을 보이고, LLM은 비용이 더 많이 든다. 특히 Llama3.2-vision.
- 표 2는 GPT-4o의 필터링으로 인한 성능 향상의 큰 효과를 보여준다(정확도: 필터링 없음 62% vs 82.01%; 시간: 6.23s vs 2.35s; 에너지: 1.84 W-H vs 1.65 W-H).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.