Skip to main content
QUICK REVIEW

[논문 리뷰] Med-Flamingo: a Multimodal Medical Few-shot Learner

Michael Moor, Qian Huang|arXiv (Cornell University)|2023. 07. 27.
Multimodal Machine Learning Applications인용 수 45
한 줄 요약

Med-Flamingo가 Flamingo를 의학 도메인에 맞게 조정하여 생성적 의학 VQA를 위한 다중모달 소수-shot 학습을 가능하게 하며, 임상의 평가가 포함된 주관식 응답과 새로운 Visual USMLE 데이터셋으로 평가됩니다.

ABSTRACT

Medicine, by its nature, is a multifaceted domain that requires the synthesis of information across various modalities. Medical generative vision-language models (VLMs) make a first step in this direction and promise many exciting clinical applications. However, existing models typically have to be fine-tuned on sizeable down-stream datasets, which poses a significant limitation as in many medical applications data is scarce, necessitating models that are capable of learning from few examples in real-time. Here we propose Med-Flamingo, a multimodal few-shot learner adapted to the medical domain. Based on OpenFlamingo-9B, we continue pre-training on paired and interleaved medical image-text data from publications and textbooks. Med-Flamingo unlocks few-shot generative medical visual question answering (VQA) abilities, which we evaluate on several datasets including a novel challenging open-ended VQA dataset of visual USMLE-style problems. Furthermore, we conduct the first human evaluation for generative medical VQA where physicians review the problems and blinded generations in an interactive app. Med-Flamingo improves performance in generative medical VQA by up to 20\% in clinician's rating and firstly enables multimodal medical few-shot adaptations, such as rationale generation. We release our model, code, and evaluation app under https://github.com/snap-stanford/med-flamingo.

연구 동기 및 목표

  • 의료 도메인에서 다중모달 인-context 학습을 촉진하고 소수-shot 능력을 제공하도록 동기를 부여하고 enables.
  • 교과서 및 PubMed 소스의 교차 배치 의학 이미지-텍스트 데이터로 의학에 맞춘 비전-언어 모델을 사전 학습시키기.
  • 임상의 인간 평가를 통한 생성 의학 VQA 및 합리화 생성의 시연.
  • 여러 전문 분야에 걸친 새로운 Visual USMLE 스타일의 VQA 데이터셋을 생성하고 공개하기.

제안 방법

  • Med-Flamingo를 OpenFlamingo-9B의 사전 학습을 의학 이미지-텍스트 데이터(MTB 데이터셋) 및 쌍형 PMC-OA 데이터로 연장하여 구축한다.
  • λ를 1로 설정한 쌍형 데이터와 교차 배치를 결합하는 공동 목표로 학습한다.
  • VQA-RAD, PathVQA, Visual USMLE를 대상으로 임상의학 기반 평가 지표를 사용한 소수-shot 생성 의학 VQA를 통해 평가한다.
  • 임상의들이 0–10의 임상 활용성 척도로 생성물을 평가하는 블라인드 인간 평가 앱을 수행한다.
  • Vision Transformer 임베딩 및 FAISS를 사용하여 사전학습 및 평가 세트 간의 시각적으로 유사한 이미지를 식별하여 중복 제거 및 누출 제거를 수행한다.

실험 결과

연구 질문

  • RQ1의학에서 소수-shot 프롬프트로 다중모달 인-context 학습을 수행하도록 비전-언어 모델을 적응시킬 수 있는가?
  • RQ2합리화를 가진 생성 의학 VQA 출력이 다양한 의학 모달리티와 전문 분야에서 임상의 판단과 일치하는가?
  • RQ3교과서 및 PMC의 텍스트+이미지로 구성된 의학 도메인 사전 학습 데이터가 일반 도메인 기반의 baselines와 비교하여 소수-shot VQA 성능을 향상시키는가?
  • RQ4생성된 합리화 및 진단의 현실성 및 임상적 유용성에 대한 소수-shot 프롬프트의 영향은 어떠한가?
  • RQ5새로운 Visual USMLE 스타일 데이터셋이 방사선과 병리 과제를 넘어 다중모달 의학 VQA를 의미 있게 도전하고 평가할 수 있는가?

주요 결과

  • Med-Flamingo가 소수-shot 설정에서 세 개의 생성적 의학 VQA 데이터셋에 대해 평균 임상의 평가 점수가 가장 높았으며, 기본 모델 대비 최대 20%까지 초과했다.
  • 모델은 복잡한 질문에 대한 추론과 합리화 생성 능력을 가능하게 하며, 이는 이전의 다중모달 의학 기초 모델이 보이지 않던 능력이다.
  • Visual USMLE은 영상, 사례 요약, 검사치를 포함한 교차 전문 분야의 다중모달 문제를 제시하여 방사선 및 병리 데이터셋을 넘어 확장한다.
  • PVQA 테스트 이미지에서 전처리 중 누출이 확인되어 194개의 시각적으로 매우 유사한 이미지가 제거되어 평가 무결성을 보장했다.
  • VQA-RAD 및 PathVQA 전반에서 자동 지표(BERT-sim, Exact-match)가 임상적 유용성을 신뢰성 있게 반영하지 못하므로 인간 평가의 중요성이 강조된다.
  • Med-Flamingo는 강한 소수-shot 성능을 보여주면서도 안전성 주의사항 및 잠재적 환각 문제를 유지하므로 추가 데이터 및 정렬 작업의 필요성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.