[논문 리뷰] DeID-GPT: Zero-shot Medical Text De-Identification by GPT-4
논문은 HIPAA 식별자를 프롬프트에 내장하고 텍스트의 의미를 보존하면서 PHI를 제거하도록 의학 메모의 자유 텍스트를 자동으로 식별해 제거하는 GPT-4/ChatGPT 기반 제로샷 프레임워크인 DeID-GPT를 제안한다. 이는 i2b2/UTHealth 식별 제거 데이터셋에서 평가되며 프롬프트 설계가 성능의 핵심 동인임을 강조한다.
The digitization of healthcare has facilitated the sharing and re-using of medical data but has also raised concerns about confidentiality and privacy. HIPAA (Health Insurance Portability and Accountability Act) mandates removing re-identifying information before the dissemination of medical records. Thus, effective and efficient solutions for de-identifying medical data, especially those in free-text forms, are highly needed. While various computer-assisted de-identification methods, including both rule-based and learning-based, have been developed and used in prior practice, such solutions still lack generalizability or need to be fine-tuned according to different scenarios, significantly imposing restrictions in wider use. The advancement of large language models (LLM), such as ChatGPT and GPT-4, have shown great potential in processing text data in the medical domain with zero-shot in-context learning, especially in the task of privacy protection, as these models can identify confidential information by their powerful named entity recognition (NER) capability. In this work, we developed a novel GPT4-enabled de-identification framework (``DeID-GPT") to automatically identify and remove the identifying information. Compared to existing commonly used medical text data de-identification methods, our developed DeID-GPT showed the highest accuracy and remarkable reliability in masking private information from the unstructured medical text while preserving the original structure and meaning of the text. This study is one of the earliest to utilize ChatGPT and GPT-4 for medical text data processing and de-identification, which provides insights for further research and solution development on the use of LLMs such as ChatGPT/GPT-4 in healthcare. Codes and benchmarking data information are available at https://github.com/yhydhx/ChatGPT-API.
연구 동기 및 목표
- 식별 정보를 제거함으로써 HIPAA 준수로 자유 텍스트 의학 데이터 공유를 촉진한다.
- GPT-4/ChatGPT의 제로샷 인-컨텍스트 학습을 활용하여 파인튜닝 없이 임상 노트에서 PHI를 식별하고 제거한다.
- PHI 식별 제거를 안내하고 텍스트 의미를 보존하는 HIPAA 식별자를 통합한 고품질 프롬프트를 설계한다.
제안 방법
- HIPAA 식별자를 내장한 프롬프트를 사용하여 비식별화 작업을 지정하는 제로샷 프레임워크에서 GPT-4/ChatGPT를 활용한다.
- 원본 임상 메모를 프롬프트를 통해 처리하여 비식별화된 출력물을 생성한다.
- 프롬프트 주도 워크플로우에서 HIPAA 범주에 따라 PHI를 매핑하고 비식별화한다.
- 합성 대리 데이터를 사용하여 2014년 i2b2/UTHealth 비식별화 데이터셋에서 성능을 평가한다.
- 재현성을 위해 오픈소스 코드와 벤치마킹 데이터를 제공한다.
실험 결과
연구 질문
- RQ1GPT-4/ChatGPT가 파인튜닝 없이 자유 텍스트 의학 노트의 고정밀 비식별화를 달성할 수 있는가?
- RQ2프롬프트 설계와 HIPAA 식별자 통합이 비식별화 성능에 어떤 영향을 미치는가?
- RQ3제로샷 비식별화가 임상 노트의 원래 의미와 구조를 얼마나 잘 보존하는가?
주요 결과
- DeID-GPT는 비구조화 임상 텍스트에서 개인 정보를 마스킹하는 데 비교 대상 방법들 중 가장 높은 정확도를 달성한다.
- 이 방법은 PHI를 제거하는 동안 노트의 원래 구조와 의미를 유지한다.
- 프롬프트 엔지니어링, 특히 HIPAA 식별자를 프롬프트에 포함하는 것이 성능의 주된 원인이다.
- 본 연구는 의료 텍스트 처리 및 비식별화에 ChatGPT/GPT-4를 적용한 초기 연구 중 하나이다.
- 코드와 벤치마킹 데이터는 재현성을 위해 공개적으로 이용 가능하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.