Skip to main content
QUICK REVIEW

[논문 리뷰] Synthetic Data for Veterinary EHR De-identification: Benefits, Limits, and Safety Trade-offs Under Fixed Compute

David M. Brundage|arXiv (Cornell University)|2026. 01. 13.
Electronic Health Records Systems인용 수 0
한 줄 요약

본 논문은 LLM이 생성한 합성 수의학 서사가 다양한 학습 체제에서 비식별화에 미치는 영향을 평가하고, 합성 데이터가 노출 확대를 통해 도움이 되지만 고정 예산 하에서 실제 라벨이 부여된 노트를 대체할 수는 없으며, 이득의 대부분이 노출 주도임을 보인다.

ABSTRACT

Veterinary electronic health records (vEHRs) contain privacy-sensitive identifiers that limit secondary use. While PetEVAL provides a benchmark for veterinary de-identification, the domain remains low-resource. This study evaluates whether large language model (LLM)-generated synthetic narratives improve de-identification safety under distinct training regimes, emphasizing (i) synthetic augmentation and (ii) fixed-budget substitution. We conducted a controlled simulation using a PetEVAL-derived corpus (3,750 holdout/1,249 train). We generated 10,382 synthetic notes using a privacy-preserving "template-only" regime where identifiers were removed prior to LLM prompting. Three transformer backbones (PetBERT, VetBERT, Bio_ClinicalBERT) were trained under varying mixtures. Evaluation prioritized document-level leakage rate (the fraction of documents with at least one missed identifier) as the primary safety outcome. Results show that under fixed-sample substitution, replacing real notes with synthetic ones monotonically increased leakage, indicating synthetic data cannot safely replace real supervision. Under compute-matched training, moderate synthetic mixing matched real-only performance, but high synthetic dominance degraded utility. Conversely, epoch-scaled augmentation improved performance: PetBERT span-overlap F1 increased from 0.831 to 0.850 +/- 0.014, and leakage decreased from 6.32% to 4.02% +/- 0.19%. However, these gains largely reflect increased training exposure rather than intrinsic synthetic data quality. Corpus diagnostics revealed systematic synthetic-real mismatches in note length and label distribution that align with persistent leakage. We conclude that synthetic augmentation is effective for expanding exposure but is complementary, not substitutive, for safety-critical veterinary de-identification.

연구 동기 및 목표

  • 개인정보 보호로 인해 데이터 공유가 제한되는 vEHR에서 비식별화를 촉진한다.
  • 다양한 학습 체계에서 합성 데이터가 안전성(문서 수준 누출)과 활용도(스팬 수준 F1)를 개선하는지 조사한다.
  • 노출 효과를 이해하기 위해 증강 대 대체 및 계산 매칭된 대조를 검토한다.
  • 합성 데이터 구성(PII 포함 vs 비포함)이 수의학 NER에서 재현율, 정밀도, 누출에 미치는 영향을 특성화한다.

제안 방법

  • 실제 보류 노트 3,750건 및 실제 학습 노트 1,249건으로 PetEVAL 유래 저자원 시뮬레이션을 사용한다.
  • 자리표시자(placeholder)와 결정적 인스턴스화(deteministic instantiation)를 포함하는 템플릿 전용 생성 체계를 사용해 합성 노트 10,382건의 풀을 생성한다.
  • 노출 규모 조정, 고정 샘플, 계산 매칭 체계를 적용하여 PetBERT, VetBERT, Bio_ClinicalBERT의 세 가지 트랜스포머 백본을 학습한다.
  • 토큰- 스팬- 문서 수준 지표로 평가하고, 문서 수준 누출을 1차 안전 결과로 우선한다.
  • no-PII 합성 비율을 달리하는 제거 분석과 시드 간 민감도 분석을 수행한다.
Figure 1: Synthetic augmentation sweep ( $L{=}512$ , stride $=64$ ; $n{=}3$ seeds). Points show mean; error bars show $\pm$ 1 SD across seeds. Top: Span-overlap F1 increases with synthetic fraction across backbones. Bottom: Document-level overlap leakage decreases with synthetic fraction, with PetBE
Figure 1: Synthetic augmentation sweep ( $L{=}512$ , stride $=64$ ; $n{=}3$ seeds). Points show mean; error bars show $\pm$ 1 SD across seeds. Top: Span-overlap F1 increases with synthetic fraction across backbones. Bottom: Document-level overlap leakage decreases with synthetic fraction, with PetBE

실험 결과

연구 질문

  • RQ1다양한 학습 체계에서 LLM이 생성한 합성 수의학 서사가 비식별화의 안전성과 활용도를 향상시킬 수 있는가?
  • RQ2증강(노출 증가)과 대체(고정 예산)가 스팬 수준 F1과 문서 수준 누출에 서로 다른 영향을 미치는가?
  • RQ3no-PII 합성 노트의 비율이 재현율, 정밀도, 누출에 어떤 영향을 미치는가?
  • RQ4관찰된 이득이 합성 텍스트의 고유 품질보다 주로 증가된 노출 때문인가?
  • RQ5합성 데이터와 실제 데이터 간의 말뭉치 구조 차이가 안전한 합성 설계를 제약하는가?

주요 결과

  • 에폭 기반 학습에서 합성 비율이 높을수록 스팬 겹침 F1이 개선되고 백본 전반에 걸쳐 문서 수준 누출이 감소했으며, PetBERT는 약 90% 합성 혼합에서 F1 0.850±0.014, 누출 4.02%±0.19%를 달성했다.
  • 고정 샘플 대체 하에서 실제 노트를 합성 데이터로 대체하면 문서 수준 누출이 단조롭게 증가했고, 스팬 F1은 여전히 높았으며 예를 들면 PetBERT의 F1은 100% real일 때 0.847, 5% real일 때 0.820였다.
  • 계산 매칭 학습은 약 50%의 합성 혼합에서 최상의 F1과 낮은 누출을 보였고, 높은 합성 지배는 누출을 줄이지 않으면서 효용을 악화시켰다.
  • 에폭 기반 증강은 소수 엔티티 유형(LOC, ORG)의 재현율을 개선하고 누출을 줄였으나, 계산 매칭 하의 과도한 합성 지배는 성능에 해를 끼쳤다.
  • No-PII 편향 합성 데이터는 F1을 증가시키지만 때때로 누출도 증가시켰고, 50% no-PII 합성 혼합을 균형 있게 사용하면 누출을 거의 최소화하고 시드 간 재현율이 안정적으로 유지되었다.
  • 이득의 주된 요인은 합성 텍스트의 고유한 이점이 아니라 증가된 노출이었으며, 상당한 합성 이점은 학습 체계와 데이터 구성에 의존한다.
Figure 2: Per-entity overlap recall across synthetic fractions. Synthetic augmentation drives recall gains in minority classes (e.g., LOC/ORG) while high-frequency classes (PER) change modestly.
Figure 2: Per-entity overlap recall across synthetic fractions. Synthetic augmentation drives recall gains in minority classes (e.g., LOC/ORG) while high-frequency classes (PER) change modestly.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.