Skip to main content
QUICK REVIEW

[논문 리뷰] Towards Medical Artificial General Intelligence via Knowledge-Enhanced Multimodal Pretraining

Bingqian Lin, Zicong Chen|arXiv (Cornell University)|2023. 04. 26.
Multimodal Machine Learning Applications인용 수 9
한 줄 요약

MOTOR는 일반 지식과 특정 의료 지식을 단일 의료 기초 모델에 주입하는 지식 강화된 다중모달 사전학습 패러다임으로, 이해와 생성 모두를 가능하게 하며 다양한 태스크에서 강력한 제로샷 및 파인튜닝 성능을 의료 다중모달 벤치마크에서 발휘합니다.

ABSTRACT

Medical artificial general intelligence (MAGI) enables one foundation model to solve different medical tasks, which is very practical in the medical domain. It can significantly reduce the requirement of large amounts of task-specific data by sufficiently sharing medical knowledge among different tasks. However, due to the challenges of designing strongly generalizable models with limited and complex medical data, most existing approaches tend to develop task-specific models. To take a step towards MAGI, we propose a new paradigm called Medical-knOwledge-enhanced mulTimOdal pretRaining (MOTOR). In MOTOR, we combine two kinds of basic medical knowledge, i.e., general and specific knowledge, in a complementary manner to boost the general pretraining process. As a result, the foundation model with comprehensive basic knowledge can learn compact representations from pretraining radiographic data for better cross-modal alignment. MOTOR unifies the understanding and generation, which are two kinds of core intelligence of an AI system, into a single medical foundation model, to flexibly handle more diverse medical tasks. To enable a comprehensive evaluation and facilitate further research, we construct a medical multimodal benchmark including a wide range of downstream tasks, such as chest x-ray report generation and medical visual question answering. Extensive experiments on our benchmark show that MOTOR obtains promising results through simple task-oriented adaptation. The visualization shows that the injected knowledge successfully highlights key information in the medical data, demonstrating the excellent interpretability of MOTOR. Our MOTOR successfully mimics the human practice of fulfilling a "medical student" to accelerate the process of becoming a "specialist". We believe that our work makes a significant stride in realizing MAGI.

연구 동기 및 목표

  • 의료 인공지능 일반지능(MAGI)의 필요성을 제고하고 태스크 특화 데이터에 대한 의존도를 줄인다.
  • 일반 지식과 특정 의료 지식을 주입하는 지식 강화된 다중모달 사전학습 패러다임(MOTOR)을 제안한다.
  • 단일 기초 모델이 여러 후속 의료 태스크에서 이해와 생성을 모두 수행할 수 있도록 한다.
  • 이해와 생성을 포괄하는 포괄적 의료 다중모달 벤치마크를 구축하여 MAGI 가능 모델을 평가한다.
  • 교차모달 정렬의 개선 증거로서 해석가능성과 지식 기반 주의(attention)를 시연한다.

제안 방법

  • BLIP 스타일의 다중모달 사전학습 프레임워크를 네 가지 단일모달 인코더(이미지, 보고서, 일반 지식, 특정 지식)로 확장한다.
  • 이미지–보고서, GK–이미지, SK–이미지의 세 가지 교차모달 인코더와 생성용 보고서 디코더를 도입한다.
  • 일반 지식(GK)을 주입해 이미지 특징을 강화한 뒤, 보고서 대기열에서 인스턴스 관련 특정 지식(SK)을 검색해 특징을 정교화한다.
  • 데이터와의 연결을 위해 텍스트 기반의 다중레이블 분류(MLC) 사전학습 목표를 도입한다.
  • BLIP를 따른 ITC, ITM, LM 목표를 핵심 사전학습 태스크로 채택하되 GK/SK 기반의 향상을 적용한다.
  • 의료 다중모달 벤치마크(이미지–보고서 검색, 보고서 생성, 진단 분류, 의료 VQA)를 평가한다.

실험 결과

연구 질문

  • RQ1단일 의료 기초모델이 일반 지식과 특정 의료 지식을 모두 활용해 이해와 생성 등 다양한 모달리티 태스크를 수행할 수 있는가?
  • RQ2지식 강화된 사전학습이 지식이 없는 베이스라인에 비해 교차모달 정렬 및 하위 태스크 성능을 향상시키는가?
  • RQ3의료 기초모델이 공통 사전학습 패러다임으로 영상의학, 진단, VQA 태스크에 얼마나 일반화할 수 있는가?

주요 결과

  • MOTOR는 태스크 전반에서 최상위 또는 경쟁력 있는 성능을 보이며, 지식이 없는 변형(w/o knowledge) 대비 제로샷 및 파인튜닝 설정에서 상당한 차이를 보인다.
  • MIMIC-CXR의 이미지–보고서 검색에서 GK와 SK가 모두 기여해 이점이 나타나며, MOTOR(당사)는 여러 구성에서 최상위 또는 근사치의 R@k 점수를 달성한다(예: 제로샷 및 파인튜닝).
  • IU-Xray의 의료 보고서 생성에서 MOTOR의 CIDEr 점수가 크게 증가해 전체 모델에서 CIDEr이 0.699에 도달한다.
  • ChestX-ray14 및 MIMIC-CXR의 진단 분류에서 MOTOR는 w/o knowledge 변형을 능가하고 AUROC와 F1 지표에서 최첨단 베이스라인과 대등하거나 더 우수한 성능을 보인다.
  • VQA-RAD 및 SLAKE의 의료 시각질문응답에서 MOTOR가 개방형 응답 및 전체 정확도를 개선해 교차모달 이해 및 생성이 강화되었음을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.