[논문 리뷰] CORAL: Expert-Curated medical Oncology Reports to Advance Language Model Inference
이 논문은 자세한 종양학 주석 스키마를 도입하고, 주석된 유방암 및 췌장암 진행 기록에서 제로샷 LLM(GPT-4, GPT-3.5-turbo, FLAN-UL2)을 평가했으며, GPT-4가 전반적으로 가장 우수한 성능을 달성했다.
Both medical care and observational studies in oncology require a thorough understanding of a patient's disease progression and treatment history, often elaborately documented in clinical notes. Despite their vital role, no current oncology information representation and annotation schema fully encapsulates the diversity of information recorded within these notes. Although large language models (LLMs) have recently exhibited impressive performance on various medical natural language processing tasks, due to the current lack of comprehensively annotated oncology datasets, an extensive evaluation of LLMs in extracting and reasoning with the complex rhetoric in oncology notes remains understudied. We developed a detailed schema for annotating textual oncology information, encompassing patient characteristics, tumor characteristics, tests, treatments, and temporality. Using a corpus of 40 de-identified breast and pancreatic cancer progress notes at University of California, San Francisco, we applied this schema to assess the zero-shot abilities of three recent LLMs (GPT-4, GPT-3.5-turbo, and FLAN-UL2) to extract detailed oncological history from two narrative sections of clinical progress notes. Our team annotated 9028 entities, 9986 modifiers, and 5312 relationships. The GPT-4 model exhibited overall best performance, with an average BLEU score of 0.73, an average ROUGE score of 0.72, an exact-match F1-score of 0.51, and an average accuracy of 68% on complex tasks (expert manual evaluation on subset). Notably, it was proficient in tumor characteristic and medication extraction, and demonstrated superior performance in relational inference like adverse event detection. However, further improvements are needed before using it to reliably extract important facts from cancer progress notes needed for clinical research, complex population management, and documenting quality patient care.
연구 동기 및 목표
- 임상 노트 내에서 포괄적인 종양학 정보 표현의 필요성을 촉진한다.
- 텍스트 종양학 정보(환자/종양 특성, 검사, 치료, 시기화)를 주석화하기 위한 상세 스키마를 개발하고 적용한다.
- 주요 LLM의 제로샷 능력을 평가하여 종양학 노트의 추출 및 추론 능력을 검토한다.
- 자동화된 지표 및 전문가 평가를 이용하여 substantively de-identified 데이터 세트에서 추출 성능을 정량화한다.
제안 방법
- 환자 특성, 종양 특성, 검사, 치료, 시기화를 다루는 주석 스키마를 만든다.
- UCSF에서 40개의 비식별화된 유방암 및 췌장암 진행 기록 코퍼스를 구성한다.
- 스키마를 사용하여 9028개의 엔티티, 9986개의 수식어, 5312개의 관계를 주석화한다.
- 세 가지 LLM(GPT-4, GPT-3.5-turbo, FLAN-UL2)의 제로샷 추론을 적용하여 두 개의 서술 섹션에서 종양학적 이력을 추출한다.
- BLEU, ROUGE, 정확도 일치 F1, 전체 정확도 등을 사용하여 전문가 수작업 주석과 비교 평가한다; 전문가 부분집합 평가를 수행한다.
실험 결과
연구 질문
- RQ1제로샷 LLM이 CORAL 스키마를 사용하여 서술형 진행 기록에서 구조화된 종양학 이력을 얼마나 잘 추출할 수 있는가?
- RQ2GPT-4, GPT-3.5-turbo, FLAN-UL2 중 어떤 모델이 종양학 노트의 엔티티, 관계 및 관계 추론 작업에서 가장 우수한가?
- RQ3종양학 문서화에서 종양 특성, 약물, 이상반응 관계를 포착하는 데 있어 현재의 LLM의 강점과 한계는 무엇인가?
주요 결과
- GPT-4가 평가 대상 모델 중에서 가장 강한 전반적 성능을 달성했다.
- GPT-4의 평균 BLEU 점수: 0.73.
- GPT-4의 평균 ROUGE 점수: 0.72.
- GPT-4의 정확도 매치 F1 점수: 0.51.
- 복잡한 작업에서의 평균 정확도: 68% (전문가 부분집합 평가).
- GPT-4는 종양 특성 및 약물 추출과 역추론(예: 이상반응 탐지)에서 능숙함을 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.