Skip to main content
QUICK REVIEW

[論文レビュー] Synthetic Data for Veterinary EHR De-identification: Benefits, Limits, and Safety Trade-offs Under Fixed Compute

David M. Brundage|arXiv (Cornell University)|Jan 13, 2026
Electronic Health Records Systems被引用数 0
ひとこと要約

本論文は、LLM生成の合成獣医 Narratives が異なるトレーニング体制の下で脱識別性に与える影響を評価し、合成データは露出を拡大する場合に有効だが、固定予算の下で実際のラベル付きノートを置換することはできないことを示す。利益は主に露出主導である。

ABSTRACT

Veterinary electronic health records (vEHRs) contain privacy-sensitive identifiers that limit secondary use. While PetEVAL provides a benchmark for veterinary de-identification, the domain remains low-resource. This study evaluates whether large language model (LLM)-generated synthetic narratives improve de-identification safety under distinct training regimes, emphasizing (i) synthetic augmentation and (ii) fixed-budget substitution. We conducted a controlled simulation using a PetEVAL-derived corpus (3,750 holdout/1,249 train). We generated 10,382 synthetic notes using a privacy-preserving "template-only" regime where identifiers were removed prior to LLM prompting. Three transformer backbones (PetBERT, VetBERT, Bio_ClinicalBERT) were trained under varying mixtures. Evaluation prioritized document-level leakage rate (the fraction of documents with at least one missed identifier) as the primary safety outcome. Results show that under fixed-sample substitution, replacing real notes with synthetic ones monotonically increased leakage, indicating synthetic data cannot safely replace real supervision. Under compute-matched training, moderate synthetic mixing matched real-only performance, but high synthetic dominance degraded utility. Conversely, epoch-scaled augmentation improved performance: PetBERT span-overlap F1 increased from 0.831 to 0.850 +/- 0.014, and leakage decreased from 6.32% to 4.02% +/- 0.19%. However, these gains largely reflect increased training exposure rather than intrinsic synthetic data quality. Corpus diagnostics revealed systematic synthetic-real mismatches in note length and label distribution that align with persistent leakage. We conclude that synthetic augmentation is effective for expanding exposure but is complementary, not substitutive, for safety-critical veterinary de-identification.

研究の動機と目的

  • プライバシー制約がデータ共有を制限するvEHRでの脱識別を動機づける。
  • 合成データがトレーニング体制の違いの下で安全性(文書レベルの漏洩)と有用性(スパンレベルF1)を改善するかを調査する。
  • 補強と代替を比較し、露出効果を理解するための計算資源を揃えた対照を検討する。
  • 合成データの構成(PIIあり vs なしPII) がリコール、精度、漏洩に与える影響を特徴付ける。

提案手法

  • PetEVAL由来の低リソースシミュレーションを使用し、現実データの保持ノート3,750件とトレーニングデータ1,249件を用いる。
  • プレースホルダと決定論的インスタンス化を用いたテンプレート専用生成 regime で10,382 ノートの合成プールを生成。
  • 露出スケール、固定サンプル、計算マッチ regime の下で3つのトランスフォーマーバックボーン(PetBERT、VetBERT、Bio_ClinicalBERT)を訓練。
  • トークン、スパン、文書レベルの評価指標で評価し、文書レベルの漏洩を主要な安全性アウトカムとして優先。
  • no-PII 合成比率を変えるアブレーションとシード間の感度分析を実施。
Figure 1: Synthetic augmentation sweep ( $L{=}512$ , stride $=64$ ; $n{=}3$ seeds). Points show mean; error bars show $\pm$ 1 SD across seeds. Top: Span-overlap F1 increases with synthetic fraction across backbones. Bottom: Document-level overlap leakage decreases with synthetic fraction, with PetBE
Figure 1: Synthetic augmentation sweep ( $L{=}512$ , stride $=64$ ; $n{=}3$ seeds). Points show mean; error bars show $\pm$ 1 SD across seeds. Top: Span-overlap F1 increases with synthetic fraction across backbones. Bottom: Document-level overlap leakage decreases with synthetic fraction, with PetBE

実験結果

リサーチクエスチョン

  • RQ1LLM生成の合成獣医 Narratives は、異なるトレーニング regime の下で脱識別の安全性と有用性を改善できるか?
  • RQ2補強(露出の増加)と置換(固定予算)の効果は、スパンレベルF1と文書レベルの漏洩において異なるか?
  • RQ3no-PII 合成ノートの割合はリコール、精度、漏洩にどのような影響を与えるか?
  • RQ4観測された利益は、合成テキスト自体の内在的品質より露出の増加に主に起因するのか?
  • RQ5合成データと実データのコーパス構造的不整合は、安全な合成設計を制約する要因となるか?

主な発見

BackboneTarget synthetic fractionSpan-overlap F1 (mean ± SD)Doc leakage (overlap) (mean ± SD)
PetBERT0.900.850 ± 0.0144.02% ± 0.19%
VetBERT0.900.777 ± 0.0025.92% ± 0.10%
Bio_ClinicalBERT0.900.594 ± 0.0049.01% ± 0.18%
  • エポックベースの訓練では、バックボーン間で高い合成比率がスパンオーバーラップF1を改善し、文書レベルの漏洩を低減。PetBERT は約0.90の合成混合比でF1=0.850±0.014、漏洩=4.02%±0.19%を達成。
  • 固定サンプルの置換では、現実ノートを合成データに置換すると文書レベルの漏洩が単調増加する一方、スパンF1は高いまま(例:PetBERT、現実100% vs 現実5%でF1 0.847 → 0.820)であった。
  • 計算マッチ訓練では中程度の合成混合(約50%)が最良のF1と低漏洩を示し、高い合成支配は有用性を低下させる一方漏洩を減らさない。
  • エポックベースの補強は少数派实体タイプ(LOC、ORG)のリコールを改善し漏洩を減少させたが、計算マッチ regime での過度の合成支配は性能を損なった。
  • No-PII biased 合成データはF1を向上させる一方で漏洩を増やす場合があり、50%のNo-PII 合成混合は漏洩をほぼ最小化しつつシード間でリコールを安定させた。
  • gains の支配因子は合成テキストの内在的利点より露出の増加にあり、訓練 regime とデータ構成に依存して合成の恩恵が大きくなる。
Figure 2: Per-entity overlap recall across synthetic fractions. Synthetic augmentation drives recall gains in minority classes (e.g., LOC/ORG) while high-frequency classes (PER) change modestly.
Figure 2: Per-entity overlap recall across synthetic fractions. Synthetic augmentation drives recall gains in minority classes (e.g., LOC/ORG) while high-frequency classes (PER) change modestly.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。