Skip to main content
QUICK REVIEW

[논문 리뷰] RaDialog: A Large Vision-Language Model for Radiology Report Generation and Conversational Assistance

Chantal Pellegrini, Ege Özsoy|arXiv (Cornell University)|2023. 11. 30.
Multimodal Machine Learning Applications인용 수 11
한 줄 요약

RaDialog는 이미지 특징과 구조화된 발견을 LLM과 결합하여 방사선 보고서를 생성하고 인터랙티브 대화를 지원하는 공개 대형 비전-언어 모델로서, MIMIC-CXR에서 임상 정확도 최첨단을 달성합니다.

ABSTRACT

Conversational AI tools that can generate and discuss clinically correct radiology reports for a given medical image have the potential to transform radiology. Such a human-in-the-loop radiology assistant could facilitate a collaborative diagnostic process, thus saving time and improving the quality of reports. Towards this goal, we introduce RaDialog, the first thoroughly evaluated and publicly available large vision-language model for radiology report generation and interactive dialog. RaDialog effectively integrates visual image features and structured pathology findings with a large language model (LLM) while simultaneously adapting it to a specialized domain using parameter-efficient fine-tuning. To keep the conversational abilities of the underlying LLM, we propose a comprehensive, semi-automatically labeled, image-grounded instruct dataset for chest X-ray radiology tasks. By training with this dataset, our method achieves state-of-the-art clinical correctness in report generation and shows impressive abilities in interactive tasks such as correcting reports and answering questions, serving as a foundational step toward clinical dialog systems. Our code is available on github: https://github.com/ChantalMP/RaDialog.

연구 동기 및 목표

  • 자동화된 방사선 보고서 생성을 개선된 임상 정확도로 발전시키기.
  • 방사선과의 상호 대화 및 수정 기능을 가능하게 하여 방사선 전문의의 지원을 제공하기.
  • 이미지 특징과 구조화된 발견을 매개변수 효율적인 LLM 워크플로우에 통합하기.
  • 다양한 다운스트림 작업을 위한 공개 가능한 모델과 교육 데이터 세트를 제공하기.

제안 방법

  • 흉부 X-선 비주얼 인코더로 BioViL-T를 사용하여 패치 단위의 이미지 임베딩을 추출하기.
  • BERT 기반 정렬 모듈을 통해 시각적 특징을 텍스트 공간과 정렬하여 32개의 이미지 토큰을 생성하기.
  • CheXpert 분류기를 도입하여 이미지에 대한 구조화된 발견을 생성하기.
  • 이미지 토큰, 예측 발견 및 LLM에 대한 지시를 결합한 단일 프롬프트를 구성하기.
  • 의학 영상 데이터와 지시 데이터 세트에서 LoRA를 사용하여 Vicuna-7b LLM을 다단계 학습 regime으로 미세 조정하기.
  • 8개 작업 카테고리(보고서 생성, 수정, QA, 요약, 쉬운 언어, 설명 등)를 포함하는 지시 데이터 세트를 만들어 일반적인 LLM 기술을 유지하면서 방사선학에 특화시키기.

실험 결과

연구 질문

  • RQ1RaDialog가 흉부 X선으로 임상적으로 정확한 방사선 보고서를 생성할 수 있는가?
  • RQ2인터랙티브 대화 기능이 보고서 품질을 향상시키고 효과적인 수정 및 지식 질의를 가능하게 하는가?
  • RQ3시각적 특성과 구조화된 발견을 통합하는 것이 텍스트만 접근법과 비교하여 임상 정확도에 어떤 영향을 미치는가?
  • RQ4모델이 보고서 생성 외의 수정 및 질의응답과 같은 다운스트림 작업에서도 효과적인가?

주요 결과

방법CEBSB-1B-4MTRR-L
R2Gen [7]27.60.27*35.310.314.227.7
MDT+WCL [53]29.40.28*37.310.714.427.4
M 2 Tr. [34]30.80.39*37.810.714.527.2
ITA [50]30.8-39.512.114.728.4
METransformer [51]31.1-38.612.415.229.1
Kiut [16]32.1-39.311.316.028.5
RaDialog-INS38.60.3934.09.713.627.0
RaDialog-RG39.40.4034.69.514.027.1
  • RaDialog는 MIMIC-CXR에서 임상 효능 측면에서 최첨단의 성과를 달성하며 CE에서 이전 방법보다 7.3% 크게 개선했습니다.
  • RaDialog-RG 및 RaDialog-INS 변형은 표준 벤치마크에서 더 큰 사설 모델과 비교해 경쟁력 있는 또는 우수한 NLG 지표를 달성합니다.
  • 지시 학습된 RaDialog-INS는 보고서 생성만 하는 기준선보다 수정 및 다운스트림 인터랙티브 작업에서 상당한 개선을 보였습니다.
  • RaDialog는 공개 데이터와 더 작은 모델을 사용하면서도 CE에서 MedPaLM-12b를 능가하고 더 강한 NLG 지표를 보입니다.
  • 망각 연구는 시각적 입력과 구조화된 입력 모두가 필수적이며 방사선 작업에 대해 영역 특화 미세 조정이 중요하다는 것을 보여줍니다.
  • 공개 RaDialog 모델은 인터랙티브 대화, 수정, 영역 QA 및 지식 질문을 지원하여 인간-AI 협업을 가능하게 합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.