QUICK REVIEW

[논문 리뷰] Large Language Models with Retrieval-Augmented Generation for Zero-Shot Disease Phenotyping

Will Thompson, David Vidmar|arXiv (Cornell University)|2023. 12. 11.

Biomedical Text Mining and Ontologies인용 수 12

한 줄 요약

이 논문은 전체 EHR 노트를 처리하기 위해 MapReduce를 활용한 검색 강화 생성(RAG) 방식의 제로샷 질병 표현형화로, 폐고혈압에 적용하여 의사 규칙 기반 표현형보다 우수한 성과를 보인다.

ABSTRACT

Identifying disease phenotypes from electronic health records (EHRs) is critical for numerous secondary uses. Manually encoding physician knowledge into rules is particularly challenging for rare diseases due to inadequate EHR coding, necessitating review of clinical notes. Large language models (LLMs) offer promise in text understanding but may not efficiently handle real-world clinical documentation. We propose a zero-shot LLM-based method enriched by retrieval-augmented generation and MapReduce, which pre-identifies disease-related text snippets to be used in parallel as queries for the LLM to establish diagnosis. We show that this method as applied to pulmonary hypertension (PH), a rare disease characterized by elevated arterial pressures in the lungs, significantly outperforms physician logic rules ($F_1$ score of 0.62 vs. 0.75). This method has the potential to enhance rare disease cohort identification, expanding the scope of robust clinical research and care gap identification.

연구 동기 및 목표

희귀 질환에 대한 수동 규칙 만들기 없이 광범위한 EHR 데이터에서 확장 가능하고 정확한 질병 표현형화를 촉진한다.
전체 환자 기록에서 질병 관련 발췌문을 사전에 식별하기 위한 검색 증강 생성(RAG) 파이프라인을 도입한다.
개별 발췌문 추론을 환자 진단으로 결합하기 위한 MapReduce 기반 집계를 평가한다.
보지 않은 데이터에서 의사가 개발한 구조화된 표현형 기준선과 대조하여 LLM 기반 표현형화를 비교한다.

제안 방법

정규식(Regex)을 사용하여 환자 노트에서 관련된 2,048-토큰 발췌문을 검색한다.
검색된 발췌문을 대형 언어 모델(PaLM-2 변형)로 진단 수행을 위한 제로샷 설정으로 처리한다.
각 발췌문을 병렬로 질의하고 발췌문별 출력을 생성하기 위해 MapReduce를 적용한다.
두 가지 집계 전략을 비교한다: LLM 기반 집계와 Max 함수 집계.
역사적 신호와 현재 PH 신호의 균형을 맞추기 위한 chain-of-thought 및 steering을 포함한 프롬프트 설계를 실험한다.
ECHO/CT 관련 발췌문을 제외하여 거짓 양성(False positives)을 줄이고 성능을 향상시킨다.

실험 결과

연구 질문

RQ1질병 특이 규칙 없이 검색 증강 LLM 파이프라인이 전체 환자 기록을 분석하여 PH를 식별할 수 있는가?
RQ2MapReduce 기반 집계가 발췌문별 추론을 환자 수준의 표현형으로 더 강건하고 정확하게 만드는가?
RQ3PH에 대한 LLM 기반 표현형화가 SME가 개발한 전통적 구조화 표현형과 F1 점수 측면에서 어떻게 비교되는가?
RQ4어떤 프롬프트 설계와 검색 제외가 최고의 제로샷 PH 진단 성능을 생성하는가?

주요 결과

모델	집계	ECHO 제외	F1 점수
Structured	—	—	0.62
LLM	Max	Regex	0.73
LLM	Max	Prompt Amended	0.75
LLM	LLM	Prompt Amended	0.72

LLM 기반 표현형은 일반적으로 테스트 세트에서 구조화된 표현형보다 18%–21% 우수하다.
가장 우수한 구성(Regex 제외를 사용한 Max 집계)은 테스트 세트에서 F1 0.73을 달성했다.
프롬프트 수정 및 ECHO/CT 제외가 검증에서 성능을 향상시키며 최종 설계 선택에 도움을 주었다.
검색된 노트는 29개의 서로 다른 노트 유형에 걸쳐 있어 PH 식별을 위한 노트 간 검색의 중요성을 강조한다.
검증에서 테스트로의 F1 감소가 다소 있으며(0.05–0.10), 이는 코호트 규모 및 학습 데이터에 대한 과적합 때문일 수 있다.
실제로 LLM 기반 접근법은 구조화된 표현형보다 약 두 배 많은 PH-확정 환자를 식별했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.