[논문 리뷰] ChatCAD: Interactive Computer-Aided Diagnosis on Medical Image using Large Language Models
ChatCAD는 대형 언어 모델과 의료 영상 CAD 네트워크를 결합하여 시각적 출력을 텍스트로 변환하고, LLM 주도 요약, 인터랙티브 설명 및 방사선 보고서에 대한 치료 지침을 가능하게 한다.
Large language models (LLMs) have recently demonstrated their potential in clinical applications, providing valuable medical knowledge and advice. For example, a large dialog LLM like ChatGPT has successfully passed part of the US medical licensing exam. However, LLMs currently have difficulty processing images, making it challenging to interpret information from medical images, which are rich in information that supports clinical decisions. On the other hand, computer-aided diagnosis (CAD) networks for medical images have seen significant success in the medical field by using advanced deep-learning algorithms to support clinical decision-making. This paper presents a method for integrating LLMs into medical-image CAD networks. The proposed framework uses LLMs to enhance the output of multiple CAD networks, such as diagnosis networks, lesion segmentation networks, and report generation networks, by summarizing and reorganizing the information presented in natural language text format. The goal is to merge the strengths of LLMs' medical domain knowledge and logical reasoning with the vision understanding capability of existing medical-image CAD models to create a more user-friendly and understandable system for patients compared to conventional CAD systems. In the future, LLM's medical knowledge can be also used to improve the performance of vision-based medical-image CAD models.
연구 동기 및 목표
- 의료 지식과 추론을 활용하기 위해 시각 기반 CAD 시스템과 LLM을 결합하는 동기를 제시한다.
- CAD 출력을 텍스트로 변환하여 비전과 언어를 연결하고 LLM 추론을 촉진한다.
- 보고서 품질을 향상시키고 환자에게 인터랙티브한 설명과 의료 조언을 제공한다.
- 흉부 X선 데이터셋에서 최신 연구의 보고서 생성보다 향상된 성능을 보여준다.
제안 방법
- 다중 CAD 네트워크(분류, 병변 분절, 보고서 생성을 포함)로 흉부 X-레이 이미지를 처리한다.
- CAD 출력(텐서/마스크)을 자연어 설명으로 변환하여 프롬프트를 형성한다.
- 교차 네트워크 결과를 요약하고 정제된 방사선 보고서를 생성하기 위해 LLM(GPT-3/ChatGPT)을 사용한다.
- 점수를 임상 언어에 맞춘 중증도 설명으로 변환하는 프롬프트를 설계한다.
- CheXpert 라벨을 가진 MIMIC-CXR에서 정밀도, 재현율, F1를 사용하여 기저선과 비교해 보고서 품질을 평가한다.

실험 결과
연구 질문
- RQ1다중 CAD 네트워크의 구조화된 출력을 LLM에 입력할 때 방사선 보고서의 품질을 향상시킬 수 있는가?
- RQ2프롬프트 설계가 LLM 주도 보고서 품질과 진단 정확도에 어떤 영향을 미치는가?
- RQ3다른 크기의 LLM(및 ChatGPT)을 사용할 때 진단 성능 지표에 미치는 영향은 무엇인가?
- RQ4영상 소견을 바탕으로 유용한 설명과 치료 지침을 제공할 수 있는가?
주요 결과
- ChatCAD는 다섯 가지 흉부 방사선 사진 관찰에 대해 두 가지 최첨단 보고서 생성 기준선에 비해 진단 성능 지표(F1)를 향상시킨다.
- GPT-3 기반 프롬프트는 다섯 가지 관찰에서 CvT2DistilGPT2 및 R2GenCMN보다 평균 F1 및 재현율이 더 높고, 부종(Ede ma) 및 침윤(Consolidation)에서 눈에 띄는 향상을 보인다.
- ChatGPT의 평균 F1은 0.605로, text-davinci-003(0.591) 및 더 작은 모델들(예: 더 작은 GPT-3 크기의 평균 0.471–0.508)을 능가한다.
- 더 큰 LLM은 더 길고 더 능력 있는 보고서를 제공하고 평균적으로 더 나은 진단 성능을 보이며 의료 추론 과제에서 모델 크기의 역할을 강조한다.
- ChatCAD는 인터랙티브한 설명과 의료 상담 조언 스타일의 대화를 가능하게 하여 상담 비용을 줄이고 온라인 의료 경험을 개선할 수 있다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.