[논문 리뷰] Retrieval Augmented Chest X-Ray Report Generation using OpenAI GPT models
논문은 Retrieval Augmented Generation (RAG)을 대조적으로 사전 학습된 비전-언어 인코더와 함께 활용하여 관련 방사선 텍스트를 검색하고 OpenAI GPT 모델로 흉부 X-레이 소견을 생성하며 임상 지표를 개선하고 환각을 줄입니다.
We propose Retrieval Augmented Generation (RAG) as an approach for automated radiology report writing that leverages multimodally aligned embeddings from a contrastively pretrained vision language model for retrieval of relevant candidate radiology text for an input radiology image and a general domain generative model like OpenAI text-davinci-003, gpt-3.5-turbo and gpt-4 for report generation using the relevant radiology text retrieved. This approach keeps hallucinated generations under check and provides capabilities to generate report content in the format we desire leveraging the instruction following capabilities of these generative models. Our approach achieves better clinical metrics with a BERTScore of 0.2865 (Δ+ 25.88%) and Semb score of 0.4026 (Δ+ 6.31%). Our approach can be broadly relevant for different clinical settings as it allows to augment the automated radiology report generation process with content relevant for that setting while also having the ability to inject user intents and requirements in the prompts as part of the report generation process to modulate the content and format of the generated reports as applicable for that clinical setting.
연구 동기 및 목표
- radiology report generation을 개선하기 위한 retrieval-augmented 프레임워크를 동기화한다.
- radiology content의 선택적 검색을 위해 도메인 정렬 텍스트-이미지 임베딩을 활용한다.
- 일반 목적의 GPT 모델에 지시 지침 프롬프트를 사용하여 원하는 형식으로 임프레션을 생성한다.
- 구조화된 출력물을 생성하고 임상 설정의 요구를 제어하는 능력을 보여준다.
- 베이스라인 대비 환각 감소 및 임상 지표 개선을 평가한다.
제안 방법
- CXR-PRO 임프레션(보고서 수준 및 문장 수준)에서 검색 코퍼스를 구성한다.
- CXR-PRO/CXR-ReDonE 데이터로 학습된 대조적으로 사전 학습된 비전-언어 모델(ALBEF)을 사용해 이미지 및 텍스트 임베딩을 계산한다.
- 점곱 유사도(dot-product similarity)를 이용해 주어진 흉부 X-선 이미지에 대해 상위-K 개의 유사한 문장 또는 보고서를 검색한다.
- retrieved context를 사용해 radiology impressions를 생성하기 위해 OpenAI LLM(text-davinci-003, gpt-3.5-turbo, GPT-4)을 프롬프트한다.
- context가 토큰 한도를 넘을 때 출력을 반복적으로 다듬는 refine 메커니즘을 사용할 수 있다.
- pathology, 위치 정보, 심각도, 크기 등의 속성에 대해 프롬프트로 구조화된 JSON 출력 생성을 옵션으로 제공한다.
실험 결과
연구 질문
- RQ1Retrieval Augmented Generation이 생성된 방사선 소견의 의미적 정렬을 ground truth에 더 잘 맞추는가(순수 검색 기반 방법 대비)?
- RQ2도메인 정렬 검색 코퍼스를 일반 LLM과 함께 사용할 때 방사선 보고서 생성에서 환각이 감소하는가?
- RQ3K(검색 기록 수)가 BERTScore, S_emb, RadGraph F1 지표에 어떤 영향을 미치는가?
- RQ4제로샷 대 few-shot 프롬프트가 출력물을 다운스트림 응용에 적합한 구조화 형식으로 유도하는가?
- RQ5접근 방식이 중요한 임상 엔티티를 보존하면서 노이즈나 관련 없는 콘텐츠를 줄이는가?
주요 결과
| K | 방법 | BERTScore | S_emb | RadGraph F1 |
|---|---|---|---|---|
| N/A | CXR-ReDonE | 0.2482 | 0.3647 | 0.0921 |
| 1 | CXR-RePaiR-Gen (text-davinci-003) | 0.2600 | 0.3741 | 0.0839 |
| 1 | CXR-ReDonE | 0.2455 | 0.4029 | 0.0861 |
| 2 | CXR-RePaiR-Gen (text-davinci-003) | 0.2610 | 0.4116 | 0.0774 |
| 2 | CXR-ReDonE | 0.2465 | 0.3892 | 0.1045 |
| 2 | CXR-RePaiR-Gen (text-davinci-003) | 0.2753 | 0.4036 | 0.0926 |
| 3 | CXR-ReDonE | 0.2276 | 0.3787 | 0.1104 |
| 3 | CXR-RePaiR-Gen (text-davinci-003) | 0.2782 | 0.4030 | 0.1018 |
| 4 | CXR-RePaiR-Gen (gpt-3.5-turbo) | 0.2748 | 0.3973 | 0.0991 |
| 4 | CXR-RePaiR-Gen (gpt-4) | 0.2865 | 0.4026 | 0.1061 |
- ALBEF 기반 검색 및 GPT 모델과 함께한 RAG는 CXR-PRO에서 검색 전용 베이스라인 대비 BERTScore를 약 25.88%까지 개선한다.
- 검색을 통한 RAG는 상위-K 검색에서 베이스라인 대비 S_emb를 약 6.31% 개선한다.
- MS-CXR에서 RAG는 베이스라인 대비 BERTScore와 S_emb를 향상시키고 질적으로 RadGraph F1을 일치시킨다.
- 검색된 맥락으로 생성을 제한함으로써 시스템의 환각을 감소시키며 생성된 임프레션과 검색된 맥락 사이의 S_emb는 일반적으로 높고(평균 0.8466, 테스트 임프레션의 약 87%가 S_emb > 0.70)
- 프롬프트 엔지니어링은 자유 텍스트 임프레션 외에 병리, 위치 정보, 심각도, 크기 등의 속성을 포함하는 구조화된 JSON 출력 생성을 가능하게 한다.
- RAG 기반 생성은 순수 검색보다 덜 노이즈하지만 주요 임상 엔티티를 유지하는 간결한 임프레션을 생성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.