[논문 리뷰] Vision-Language and Large Language Model Performance in Gastroenterology: GPT, Claude, Llama, Phi, Mistral, Gemma, and Quantized Models
본 연구는 위장내과 보드 스타일 문제에서 LLM과 VLM의 의학적 추론을 평가하고, 독점적, 오픈 소스 및 양자화 모델을 이미지 여부 및 프롬프트와 함께 비교한다.
Background and Aims: This study evaluates the medical reasoning performance of large language models (LLMs) and vision language models (VLMs) in gastroenterology. Methods: We used 300 gastroenterology board exam-style multiple-choice questions, 138 of which contain images to systematically assess the impact of model configurations and parameters and prompt engineering strategies utilizing GPT-3.5. Next, we assessed the performance of proprietary and open-source LLMs (versions), including GPT (3.5, 4, 4o, 4omini), Claude (3, 3.5), Gemini (1.0), Mistral, Llama (2, 3, 3.1), Mixtral, and Phi (3), across different interfaces (web and API), computing environments (cloud and local), and model precisions (with and without quantization). Finally, we assessed accuracy using a semiautomated pipeline. Results: Among the proprietary models, GPT-4o (73.7%) and Claude3.5-Sonnet (74.0%) achieved the highest accuracy, outperforming the top open-source models: Llama3.1-405b (64%), Llama3.1-70b (58.3%), and Mixtral-8x7b (54.3%). Among the quantized open-source models, the 6-bit quantized Phi3-14b (48.7%) performed best. The scores of the quantized models were comparable to those of the full-precision models Llama2-7b, Llama2--13b, and Gemma2-9b. Notably, VLM performance on image-containing questions did not improve when the images were provided and worsened when LLM-generated captions were provided. In contrast, a 10% increase in accuracy was observed when images were accompanied by human-crafted image descriptions. Conclusion: In conclusion, while LLMs exhibit robust zero-shot performance in medical reasoning, the integration of visual data remains a challenge for VLMs. Effective deployment involves carefully determining optimal model configurations, encouraging users to consider either the high performance of proprietary models or the flexible adaptability of open-source models.
연구 동기 및 목표
- 위장내과에서 보드 스타일 질문(총 300문항, 그 중 138개에 이미지 포함)을 사용하여 LLM과 VLM의 의학적 추론 성능을 평가한다.
- 독점적, 오픈 소스, 양자화 모델 간 구성(configuration)을 체계적으로 비교한다.
- VLM/LLM 성능에 대한 이미지 및 캡션의 영향을 평가한다.
- 모델 정확도에 대한 프롬프트, 인터페이스 및 컴퓨팅 환경을 탐구한다.
제안 방법
- 위장내과 보드 스타일 객관식 문제 300개(그 중 138개에 이미지 포함)를 사용하여 모델 성능을 테스트한다.
- 다양한 모델 계열을 평가한다: GPT(3.5, 4, 4o, 4omini), Claude(3, 3.5), Gemini(1.0), Mistral, Llama(2, 3, 3.1), Mixtral, Phi(3).
- 인터페이스(웹, API), 컴퓨팅 환경(클라우드, 로컬) 및 정밀도(양자화 vs 풀 프리시전)를 모두 테스트한다.
- 반자동 파이프라인으로 정확도를 평가한다.
실험 결과
연구 질문
- RQ1위장내과 질문에서 독점형 LLM과 오픈소스 LLM의 정확도 차이는 무엇인가?
- RQ2VLM/LLM 성능에 대한 이미지 내용의 영향은 무엇이며 캡션이 도움이 되는가?
- RQ3양자화가 풀 프리시전 모델에 비해 성능에 어떤 영향을 미치는가?
- RQ4어떤 모델 구성 및 프롬프트가 위장내과에서 의학적 추론 정확도를 극대화하는가?
주요 결과
- 독점 모델 중 GPT-4o가 73.7% 정확도에 도달했고 Claude3.5-Sonnet가 74.0% 정확도를 달성했다.
- 최고 오픈소스 모델은 64% (Llama3.1-405b)와 58.3% (Llama3.1-70b)에 도달했다.
- 양자화 Phi3-14b(6비트)는 48.7% 정확도를 달성했으며 풀 프리시전 Llama2-7b, Llama2-13b, Gemma2-9b와 비슷했다.
- 이미지가 포함된 질문에서 VLM 성능은 이미지나 LLM이 생성한 캡션으로 개선되지 않았고, 인간이 작성한 이미지 설명으로 10%의 정확도 증가가 발생했다.
- 전반적으로 LLM은 강한 제로샷 의학 추론을 보이나 시각 데이터의 통합은 VLM에 여전히 도전적이다.
- 본 연구는 고성능 독점 모델과 적응 가능한 오픈 소스 옵션 간의 선택에 대한 지침을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.