QUICK REVIEW

[논문 리뷰] Med-Flamingo: a Multimodal Medical Few-shot Learner

Michael Moor, Qian Huang|arXiv (Cornell University)|2023. 07. 27.

Multimodal Machine Learning Applications인용 수 45

한 줄 요약

Med-Flamingo가 Flamingo를 의학 도메인에 맞게 조정하여 생성적 의학 VQA를 위한 다중모달 소수-shot 학습을 가능하게 하며, 임상의 평가가 포함된 주관식 응답과 새로운 Visual USMLE 데이터셋으로 평가됩니다.

ABSTRACT

Medicine, by its nature, is a multifaceted domain that requires the synthesis of information across various modalities. Medical generative vision-language models (VLMs) make a first step in this direction and promise many exciting clinical applications. However, existing models typically have to be fine-tuned on sizeable down-stream datasets, which poses a significant limitation as in many medical applications data is scarce, necessitating models that are capable of learning from few examples in real-time. Here we propose Med-Flamingo, a multimodal few-shot learner adapted to the medical domain. Based on OpenFlamingo-9B, we continue pre-training on paired and interleaved medical image-text data from publications and textbooks. Med-Flamingo unlocks few-shot generative medical visual question answering (VQA) abilities, which we evaluate on several datasets including a novel challenging open-ended VQA dataset of visual USMLE-style problems. Furthermore, we conduct the first human evaluation for generative medical VQA where physicians review the problems and blinded generations in an interactive app. Med-Flamingo improves performance in generative medical VQA by up to 20\% in clinician's rating and firstly enables multimodal medical few-shot adaptations, such as rationale generation. We release our model, code, and evaluation app under https://github.com/snap-stanford/med-flamingo.

연구 동기 및 목표

의료 도메인에서 다중모달 인-context 학습을 촉진하고 소수-shot 능력을 제공하도록 동기를 부여하고 enables.
교과서 및 PubMed 소스의 교차 배치 의학 이미지-텍스트 데이터로 의학에 맞춘 비전-언어 모델을 사전 학습시키기.
임상의 인간 평가를 통한 생성 의학 VQA 및 합리화 생성의 시연.
여러 전문 분야에 걸친 새로운 Visual USMLE 스타일의 VQA 데이터셋을 생성하고 공개하기.

제안 방법

Med-Flamingo를 OpenFlamingo-9B의 사전 학습을 의학 이미지-텍스트 데이터(MTB 데이터셋) 및 쌍형 PMC-OA 데이터로 연장하여 구축한다.
λ를 1로 설정한 쌍형 데이터와 교차 배치를 결합하는 공동 목표로 학습한다.
VQA-RAD, PathVQA, Visual USMLE를 대상으로 임상의학 기반 평가 지표를 사용한 소수-shot 생성 의학 VQA를 통해 평가한다.
임상의들이 0–10의 임상 활용성 척도로 생성물을 평가하는 블라인드 인간 평가 앱을 수행한다.
Vision Transformer 임베딩 및 FAISS를 사용하여 사전학습 및 평가 세트 간의 시각적으로 유사한 이미지를 식별하여 중복 제거 및 누출 제거를 수행한다.

실험 결과

연구 질문

RQ1의학에서 소수-shot 프롬프트로 다중모달 인-context 학습을 수행하도록 비전-언어 모델을 적응시킬 수 있는가?
RQ2합리화를 가진 생성 의학 VQA 출력이 다양한 의학 모달리티와 전문 분야에서 임상의 판단과 일치하는가?
RQ3교과서 및 PMC의 텍스트+이미지로 구성된 의학 도메인 사전 학습 데이터가 일반 도메인 기반의 baselines와 비교하여 소수-shot VQA 성능을 향상시키는가?
RQ4생성된 합리화 및 진단의 현실성 및 임상적 유용성에 대한 소수-shot 프롬프트의 영향은 어떠한가?
RQ5새로운 Visual USMLE 스타일 데이터셋이 방사선과 병리 과제를 넘어 다중모달 의학 VQA를 의미 있게 도전하고 평가할 수 있는가?

주요 결과

Med-Flamingo가 소수-shot 설정에서 세 개의 생성적 의학 VQA 데이터셋에 대해 평균 임상의 평가 점수가 가장 높았으며, 기본 모델 대비 최대 20%까지 초과했다.
모델은 복잡한 질문에 대한 추론과 합리화 생성 능력을 가능하게 하며, 이는 이전의 다중모달 의학 기초 모델이 보이지 않던 능력이다.
Visual USMLE은 영상, 사례 요약, 검사치를 포함한 교차 전문 분야의 다중모달 문제를 제시하여 방사선 및 병리 데이터셋을 넘어 확장한다.
PVQA 테스트 이미지에서 전처리 중 누출이 확인되어 194개의 시각적으로 매우 유사한 이미지가 제거되어 평가 무결성을 보장했다.
VQA-RAD 및 PathVQA 전반에서 자동 지표(BERT-sim, Exact-match)가 임상적 유용성을 신뢰성 있게 반영하지 못하므로 인간 평가의 중요성이 강조된다.
Med-Flamingo는 강한 소수-shot 성능을 보여주면서도 안전성 주의사항 및 잠재적 환각 문제를 유지하므로 추가 데이터 및 정렬 작업의 필요성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.