Skip to main content
QUICK REVIEW

[논문 리뷰] Self-Verification Improves Few-Shot Clinical Information Extraction

Zelalem Gero, Chandan Singh|arXiv (Cornell University)|2023. 05. 30.
Topic Modeling인용 수 18
한 줄 요약

본 논문은 서로 다른 프롬프트를 사용해 같은 LLM에 다수의 호출을 수행하여 임상 정보를 추출하고, 출력물을 증거에 근거시키며 부정확성을 제거하는 self-verification(SV) 프레임워크를 제시한다. 이를 통해 few-shot 성능을 향상시키고 해석 가능한 스팬 기반 근거를 얻을 수 있다.

ABSTRACT

Extracting patient information from unstructured text is a critical task in health decision-support and clinical research. Large language models (LLMs) have shown the potential to accelerate clinical curation via few-shot in-context learning, in contrast to supervised learning which requires much more costly human annotations. However, despite drastic advances in modern LLMs such as GPT-4, they still struggle with issues regarding accuracy and interpretability, especially in mission-critical domains such as health. Here, we explore a general mitigation framework using self-verification, which leverages the LLM to provide provenance for its own extraction and check its own outputs. This is made possible by the asymmetry between verification and generation, where the latter is often much easier than the former. Experimental results show that our method consistently improves accuracy for various LLMs in standard clinical information extraction tasks. Additionally, self-verification yields interpretations in the form of a short text span corresponding to each output, which makes it very efficient for human experts to audit the results, paving the way towards trustworthy extraction of clinical information in resource-constrained scenarios. To facilitate future research in this direction, we release our code and prompts.

연구 동기 및 목표

  • 의료 도메인에서 LLM을 활용한 소수샷 임상 정보 추출의 정확도와 해석 가능성의 제한을 해결한다.
  • LLM 출력물을 순차적으로 정제하고 근거를 제시하며 불필요한 정보를 제거하는 self-verification 파이프라인을 제안한다.
  • SV가 다양한 태스크와 모델에서 추출 정확도를 향상시키는 동시에 해석 가능한 근거 제시를 제공한다.
  • 향후 연구를 촉진하기 위해 코드와 프롬트를 공개한다.

제안 방법

  • 다른 프롬프트를 사용하여 동일한 LLM으로 네 단계 SV 파이프라인: 원래 추출, 누락을 찾기 위한 생략, 출처 스팬에 대한 근거 제시, 그리고 부정확성 제거를 위한 가지치기.
  • 긴 입력의 경우 새로운 누락이 발견될 때까지 생략 단계를 최대 다섯 차례 반복한다.
  • 근거 스팬은 각 추출 항목에 대한 텍스트 증거를 제공하여 사람의 감사가 가능하도록 한다.
  • 여러 태스크와 모델에 걸쳐 SV를 단일 대형 프롯프롬-baseline과 비교하고 매크로 F1, 재현율, 정밀도를 평가했다.
  • 프롬프트와 정확한 프롬프트는 GitHub 저장소에 제공된다.
Figure 1: Overview of self-verification pipeline for clinical information extraction. Each step calls the same LLM with different prompts to refine the information from the previous steps. Below each step we show abbreviated outputs for extracting a list of assigned diagnoses from a sample clinical
Figure 1: Overview of self-verification pipeline for clinical information extraction. Each step calls the same LLM with different prompts to refine the information from the previous steps. Below each step we show abbreviated outputs for extracting a list of assigned diagnoses from a sample clinical

실험 결과

연구 질문

  • RQ1self-verification이 다양한 모델에서 소샷 임상 정보 추출 태스크의 추출 정확도를 향상시키는가?
  • RQ2SV가 해석 가능한 근거를 제공하여 사람의 감사에 도움을 주면서도 성능 손실 없이 작동하는가?
  • RQ3개별 SV 구성요소(생략, 근거 제시, 가지치기)가 태스크 전반의 성능에 어떻게 기여하는가?
  • RQ4SV의 효과성과 근거 품질에 모델 또는 태스크 의존적 패턴이 있는가?

주요 결과

  • SV는 태스크와 모델 전반에 걸쳐 일관되게 추출 정확도를 향상시키며(평균 F1 향상 약 0.056).
  • GPT-4는 임상 시험 무당, 약물 상태 등에서 큰 이득을 보이며(예: 임상 trial arms의 F1 증가 >0.1, 약물 상태 >0.3).
  • 정확도 회복에 대해 생략이 재현율을 높이고, 가지치기가 정밀도를 높이며, 전체 SV가 두 가지를 균형 있게 개선하여 F1을 향상시킨다는 차단 결과.
  • SV는 인간 판단과 잘 정렬된 해석 가능한 근거 스팬을 제공하며(예: GPT-4에서 인간 주석 개입에 대한 93% 스팬 중첩).
  • 긴 입력의 경우 생략이 F1 증가에 더 크게 기여하는 경향이 있으며, 가지치기는 정밀도 개선을 유지한다; 전체 SV는 균형 잡힌 향상을 제공한다.
Figure 2: Example output and interpretation for medication status. For each element of the output list, our pipeline outputs the text span which contains evidence for that generated output (shown with highlighting).
Figure 2: Example output and interpretation for medication status. For each element of the output list, our pipeline outputs the text span which contains evidence for that generated output (shown with highlighting).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.