QUICK REVIEW

[논문 리뷰] LLMs Accelerate Annotation for Medical Information Extraction

Akshay Goel, Almog Gueta|arXiv (Cornell University)|2023. 12. 04.

Topic Modeling인용 수 58

한 줄 요약

이 논문은 소수의-shot 프롬프트를 사용한 PaLM 2와 사후 처리 해결자를 활용한 LLM 보조 주석 파이프라인이 의학 정보 추출의 인간 라벨링 시간을 현저히 줄이면서 전문가 인간 라벨링과 유사한 주석 품질을 달성할 수 있음을 보여줍니다. LLM 기본 주석 후 전문가의 정제가 전문가 수준의 결과를 얻고 상당한 시간 절감으로 이어집니다.

ABSTRACT

The unstructured nature of clinical notes within electronic health records often conceals vital patient-related information, making it challenging to access or interpret. To uncover this hidden information, specialized Natural Language Processing (NLP) models are required. However, training these models necessitates large amounts of labeled data, a process that is both time-consuming and costly when relying solely on human experts for annotation. In this paper, we propose an approach that combines Large Language Models (LLMs) with human expertise to create an efficient method for generating ground truth labels for medical text annotation. By utilizing LLMs in conjunction with human annotators, we significantly reduce the human annotation burden, enabling the rapid creation of labeled datasets. We rigorously evaluate our method on a medical information extraction task, demonstrating that our approach not only substantially cuts down on human intervention but also maintains high accuracy. The results highlight the potential of using LLMs to improve the utilization of unstructured clinical data, allowing for the swift deployment of tailored NLP solutions in healthcare.

연구 동기 및 목표

의료 NLP에서 비용이 많이 드는 라벨링 데이터의 병목 현상을 LLM과 인간 전문가를 결합하여 효율적인 기준 ground-truth 레이블로 해결한다.
LLM 또는 인간이 수행하는 기본 주석 followed by Expert Refinement의 2단계 주석 파이프라인을 시연하고 전통적인 인간 전용 워크플로와 비교한다.
의약품 추출 작업을 i2b2 2009 데이터세트에서 평가하여 시간 절감과 레이블 품질을 평가한다.
재현성과 품질을 극대화하기 위한 프롬프트 디자인 및 앙상블 전략에 대한 실용적 지침을 제공한다.

제안 방법

의학 전문가가 Refinement Annotations로 정제하는 LLM 생성 기본 주석(Base Annotations) 두 단계 주석 파이프라인을 제안한다.
작업별 프롬프트와 예시를 사용한 소수 샷 프롬팅 설정에서 PaLM 2를 사용하여 약물 추출 출력을 생성한다.
문서를 청크로 분할하고 YAML/구조화된 출력(IOB-Token 또는 Direct Chunk 스키마)로 LLM에 프롬토를 제공하며, LLM 출력물을 NER-RE 객체로 변환하는 Resolver Module을 적용한다.
두 가지 프롬프트 스키마(IOB-Token와 Direct Chunk)의 출력을 실험하고 이를 앙상블하여 재현율과 F1을 향상시킨다.
사람의 편집 시간을 최소화하기 위해 재현률을 우선시하고(F2 지표), 시간 절감과 품질 간의 trade-off를 분석한다.
LLM 보조 기본 주석(Base Annotations)과 전통적 Base Rater 주석과의 비교 및 전문가의 정제를 평가한다.

실험 결과

연구 질문

RQ1의료 정보 추출을 위한 LLM이 사람 기본 주석과 경쟁 가능한 고재현 주석(Base Annotations)을 생성할 수 있는가?
RQ2전문가 정제가 포함된 LLM 보조 주석 파이프라인을 사용하는 경우, 완전한 인간 파이프라인과 비교했을 때 시간-품질의 트레이드오프는 어떤가?
RQ3프롬프트 설계 및 앙상블이 LLM이 생성한 의약품 추출 주석의 품질에 어떤 영향을 미치는가?
RQ4LLM 기본 주석 후 전문가 정제가 인간 전용 워크플로우에 상응하는 전문가 수준의 품질에 도달하는가?

주요 결과

Label Type	Vertical Recall	Vertical Precision	Vertical F1	Horizontal Recall	Horizontal Precision	Horizontal F1	Mean Time (min/doc)	Median Time (min/doc)
Base Rater	0.789	0.893	0.838	0.734	0.821	0.775	17.60	11.93
Base LLM	0.850	0.762	0.804	0.810	0.703	0.752	n/a	n/a
Base Rater + Refinement	0.912	0.907	0.910	0.887	0.879	0.883	26.67	19.18
Base LLM + Refinement	0.921	0.893	0.907	0.892	0.860	0.876	11.32	7.27

LLM 보조 기본 주석은 테스트 세트에서 총 주석 시간을 평균 58% 감소시킵니다.
LLM 기본 주석 후 전문가 정제는 전문가 주도 인간 정제와 비교할 만한 품질을 달성합니다.
Base LLM + Refinement는 Base Rater + Refinement에 근접한 높은 수직/수평 F1 점수를 제공하면서도 문서당 시간은 크게 절감됩니다(11.32 vs 26.67분).
Base LLM + Refinement에서도 기본 주석 단계의 시간 절감이 가능하지만, 전문가 정제의 품질은 여전히 높습니다.
프롬프트 엔지니어링 및 앙상블(IOB-Token 및 Direct Chunk)은 재현율을 향상시키며, 이는 수동 편집을 줄이는 데 우선합니다.
최고 프롬프트의 앙상블은 개발에서 가장 강한 성능을 보였으며, 테스트 세트 주석에 guiding 역할을 했습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.