QUICK REVIEW

[논문 리뷰] RaDialog: A Large Vision-Language Model for Radiology Report Generation and Conversational Assistance

Chantal Pellegrini, Ege Özsoy|arXiv (Cornell University)|2023. 11. 30.

Multimodal Machine Learning Applications인용 수 11

한 줄 요약

RaDialog는 이미지 특징과 구조화된 발견을 LLM과 결합하여 방사선 보고서를 생성하고 인터랙티브 대화를 지원하는 공개 대형 비전-언어 모델로서, MIMIC-CXR에서 임상 정확도 최첨단을 달성합니다.

ABSTRACT

Conversational AI tools that can generate and discuss clinically correct radiology reports for a given medical image have the potential to transform radiology. Such a human-in-the-loop radiology assistant could facilitate a collaborative diagnostic process, thus saving time and improving the quality of reports. Towards this goal, we introduce RaDialog, the first thoroughly evaluated and publicly available large vision-language model for radiology report generation and interactive dialog. RaDialog effectively integrates visual image features and structured pathology findings with a large language model (LLM) while simultaneously adapting it to a specialized domain using parameter-efficient fine-tuning. To keep the conversational abilities of the underlying LLM, we propose a comprehensive, semi-automatically labeled, image-grounded instruct dataset for chest X-ray radiology tasks. By training with this dataset, our method achieves state-of-the-art clinical correctness in report generation and shows impressive abilities in interactive tasks such as correcting reports and answering questions, serving as a foundational step toward clinical dialog systems. Our code is available on github: https://github.com/ChantalMP/RaDialog.

연구 동기 및 목표

자동화된 방사선 보고서 생성을 개선된 임상 정확도로 발전시키기.
방사선과의 상호 대화 및 수정 기능을 가능하게 하여 방사선 전문의의 지원을 제공하기.
이미지 특징과 구조화된 발견을 매개변수 효율적인 LLM 워크플로우에 통합하기.
다양한 다운스트림 작업을 위한 공개 가능한 모델과 교육 데이터 세트를 제공하기.

제안 방법

흉부 X-선 비주얼 인코더로 BioViL-T를 사용하여 패치 단위의 이미지 임베딩을 추출하기.
BERT 기반 정렬 모듈을 통해 시각적 특징을 텍스트 공간과 정렬하여 32개의 이미지 토큰을 생성하기.
CheXpert 분류기를 도입하여 이미지에 대한 구조화된 발견을 생성하기.
이미지 토큰, 예측 발견 및 LLM에 대한 지시를 결합한 단일 프롬프트를 구성하기.
의학 영상 데이터와 지시 데이터 세트에서 LoRA를 사용하여 Vicuna-7b LLM을 다단계 학습 regime으로 미세 조정하기.
8개 작업 카테고리(보고서 생성, 수정, QA, 요약, 쉬운 언어, 설명 등)를 포함하는 지시 데이터 세트를 만들어 일반적인 LLM 기술을 유지하면서 방사선학에 특화시키기.

실험 결과

연구 질문

RQ1RaDialog가 흉부 X선으로 임상적으로 정확한 방사선 보고서를 생성할 수 있는가?
RQ2인터랙티브 대화 기능이 보고서 품질을 향상시키고 효과적인 수정 및 지식 질의를 가능하게 하는가?
RQ3시각적 특성과 구조화된 발견을 통합하는 것이 텍스트만 접근법과 비교하여 임상 정확도에 어떤 영향을 미치는가?
RQ4모델이 보고서 생성 외의 수정 및 질의응답과 같은 다운스트림 작업에서도 효과적인가?

주요 결과

방법	CE	BS	B-1	B-4	MTR	R-L
R2Gen [7]	27.6	0.27*	35.3	10.3	14.2	27.7
MDT+WCL [53]	29.4	0.28*	37.3	10.7	14.4	27.4
M 2 Tr. [34]	30.8	0.39*	37.8	10.7	14.5	27.2
ITA [50]	30.8	-	39.5	12.1	14.7	28.4
METransformer [51]	31.1	-	38.6	12.4	15.2	29.1
Kiut [16]	32.1	-	39.3	11.3	16.0	28.5
RaDialog-INS	38.6	0.39	34.0	9.7	13.6	27.0
RaDialog-RG	39.4	0.40	34.6	9.5	14.0	27.1

RaDialog는 MIMIC-CXR에서 임상 효능 측면에서 최첨단의 성과를 달성하며 CE에서 이전 방법보다 7.3% 크게 개선했습니다.
RaDialog-RG 및 RaDialog-INS 변형은 표준 벤치마크에서 더 큰 사설 모델과 비교해 경쟁력 있는 또는 우수한 NLG 지표를 달성합니다.
지시 학습된 RaDialog-INS는 보고서 생성만 하는 기준선보다 수정 및 다운스트림 인터랙티브 작업에서 상당한 개선을 보였습니다.
RaDialog는 공개 데이터와 더 작은 모델을 사용하면서도 CE에서 MedPaLM-12b를 능가하고 더 강한 NLG 지표를 보입니다.
망각 연구는 시각적 입력과 구조화된 입력 모두가 필수적이며 방사선 작업에 대해 영역 특화 미세 조정이 중요하다는 것을 보여줍니다.
공개 RaDialog 모델은 인터랙티브 대화, 수정, 영역 QA 및 지식 질문을 지원하여 인간-AI 협업을 가능하게 합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.