QUICK REVIEW

[논문 리뷰] Qilin-Med-VL: Towards Chinese Large Vision-Language Model for General Healthcare

Junling Liu, Ziming Wang|arXiv (Cornell University)|2023. 10. 27.

Multimodal Machine Learning Applications인용 수 10

한 줄 요약

Qilin-Med-VL은 ViT 이미지 인코더와 중국어 LLM을 결합한 최초의 중국어 의료 비전-언어 모델로, ChiMed-VL에서 시각-텍스트 및 지시 수행 능력을 일반 보건 업무에 맞추도록 조정하는 두 단계 커리큘럼으로 학습되었습니다.

ABSTRACT

Large Language Models (LLMs) have introduced a new era of proficiency in comprehending complex healthcare and biomedical topics. However, there is a noticeable lack of models in languages other than English and models that can interpret multi-modal input, which is crucial for global healthcare accessibility. In response, this study introduces Qilin-Med-VL, the first Chinese large vision-language model designed to integrate the analysis of textual and visual data. Qilin-Med-VL combines a pre-trained Vision Transformer (ViT) with a foundational LLM. It undergoes a thorough two-stage curriculum training process that includes feature alignment and instruction tuning. This method enhances the model's ability to generate medical captions and answer complex medical queries. We also release ChiMed-VL, a dataset consisting of more than 1M image-text pairs. This dataset has been carefully curated to enable detailed and comprehensive interpretation of medical data using various types of images.

연구 동기 및 목표

중국어 의료 AI에서 언어 및 모달리티 장벽을 제거하기 위해 중국어 의료 비전-언어 모델을 구축한다.
정렬 및 지시 튜닝을 위한 대규모 중국어 의료 다중모달 데이터셋 ChiMed-VL을 만든다.
의료 비전-언어 능력을 향상시키기 위한 두 단계 커리큘럼(특징 정렬 및 지시-튜닝)을 개발한다.
의료 비전-언어 과제 및 VQA 데이터셋에서 Qilin-Med-VL을 기준선과 비교 평가한다.

제안 방법

아키텍처는 중국어-LLaMA2-13B-Chat를 기본 LLM으로, 사전 학습된 ViT 이미지 인코더와 비전-언어 피처 어댑터를 결합한다.
두 단계 커리큘럼 훈련: (1) 고정된 인코더와 어댑터를 사용한 이미지-캡션 작업으로 비전-언어 피처 정렬, (2) 이미지 인코더를 고정한 채 이미지-질문-답변 데이터로 지시-튜닝을 수행한다.
ChiMed-VL의 데이터셋 구성은 정렬(Alignment) 하위집합 580,014 이미지-텍스트 쌍과 지시-튜닝 하위집합 469,441 QA 쌍으로 구성이다.
품질 관리가 포함된 GPT-3.5를 사용하여 데이터를 중국어로 번역한 뒤, 다중 이미지 입력을 연결하고 데이터를 대화 프롬프트 형식으로 포맷하는 데이터 전처리를 수행한다.
구현은 8x A100 GPU를 사용하며, 각 단계의 배치 크기와 학습률을 포함한 학습 세부를 포함한다.

실험 결과

연구 질문

RQ1다양한 의료 영상 모달리티를 처리하기 위해 중국어 의료 분야에 대해 대형 비전-언어 모델을 어떻게 효과적으로 구축할 수 있는가?
RQ2두 단계 커리큘럼(정렬 및 지시-튜닝)이 중국어 VL 모델의 의료 VQA 및 캡션 생성 성능을 향상시킬 수 있는가?
RQ3중국어 의료 VL 데이터셋(ChiMed-VL)이 모델의 정렬 및 지시 이행 성능에 어떤 영향을 미치는가?
RQ4시각 의료 과제에서 Qilin-Med-VL이 영어 중심 또는 중국어 의료 기준선과 어떻게 비교되는가?

주요 결과

Qilin-Med-VL은 초음파, X선, MRI에 걸친 의료 VQA 과제 및 영상 사례에서 여러 기준선에 비해 경쟁력 있는 성능을 보인다.
제시된 사례 분석에서 특정 병변 위치 추정이 일부 기준선에 비해 뛰어나다.
ChiMed-VL은 정렬용으로 580,014 이미지-텍스트 쌍, 지시-튜닝용으로 469,441 QA 쌍을 제공하여 중국어로 다중 모달 의료 해석을 가능하게 한다.
두 단계 커리큘럼은 사전 학습된 이미지 인코더를 업데이트하지 않고도 시각-언어 정렬 및 지시 이행 능력을 향상시킨다.
이 접근법은 일반 보건 의료에서 중국어 VL 모델의 실현 가능성과 이점을 강조하며 언어 및 모달리티 포용성을 다룬다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.