Skip to main content
QUICK REVIEW

[論文レビュー] Privacy-Preserving EHR Data Transformation via Geometric Operators: A Human-AI Co-Design Technical Report

Maolin Wang, Beining Bao|arXiv (Cornell University)|Mar 24, 2026
Privacy-Preserving Technologies in Data被引用数 0
ひとこと要約

要約:本論文は、構造化された EHR 時系列をプライバシー保護された臨床利用可能な数値ビューへと変換する、人間とAIが共設計したフレームワークを紹介します。幾何学的な列ごとの演算子と調整可能なプライバシーノブ α を用います。

ABSTRACT

Electronic health records (EHRs) and other real-world clinical data are essential for clinical research, medical artificial intelligence, and life science, but their sharing is severely limited by privacy, governance, and interoperability constraints. These barriers create persistent data silos that hinder multi-center studies, large-scale model development, and broader biomedical discovery. Existing privacy-preserving approaches, including multi-party computation and related cryptographic techniques, provide strong protection but often introduce substantial computational overhead, reducing the efficiency of large-scale machine learning and foundation-model training. In addition, many such methods make data usable for restricted computation while leaving them effectively invisible to clinicians and researchers, limiting their value in workflows that still require direct inspection, exploratory analysis, and human interpretation. We propose a real-world-data transformation framework for privacy-preserving sharing of structured clinical records. Instead of converting data into opaque representations, our approach constructs transformed numeric views that preserve medical semantics and major statistical properties while, under a clearly specified threat model, provably breaking direct linkage between those views and protected patient-level attributes. Through collaboration between computer scientists and the AI agent extbf{SciencePal}, acting as a constrained tool inventor under human guidance, we design three transformation operators that are non-reversible within this threat model, together with an additional mixing strategy for high-risk scenarios, supported by theoretical analysis and empirical evaluation under reconstruction, record linkage, membership inference, and attribute inference attacks.

研究の動機と目的

  • マルチセンター研究とモデル開発を可能にするために、プライバシー保護つきで実用的な構造化 EHR データビューの必要性を動機づける。
  • 定義された脅威モデルの下で、コホート統計を保持しつつ正確な再識別を防ぐ幾何学的な列ごとの変換フレームワークを提案する。
  • CPU ベースの病院インフラストラクチャに適した、再現不能な演算子ファミリと可調整なプライバシー機構を開発する。
  • transformation operators と attacks を考案・形式化・検証するための人間–AI 共設計パラダイムを確立する。
  • 夜間の院内展開とガバナンスのための運用的な EHR-Privacy-Agent システムを提供する。

提案手法

  • z-score 標準化後の平均–分散マニホールド上で列ごとデータ変換を枠組み化する。
  • z-score 空間での点ごとの摂動を統一的なプライバシー knob α で制御する演算子 ˜_{ abla} を導入し、l_inf ノルムの境界を設定する。
  • 3つの基本演算子を定義する:T1 ローカルトリプレット回転、T2 ノイズ+マニホールド射影、T3 グローバル・ハウスホルダー反射(ネガティブ・コントロール)。
  • α を変えずに高リスク変数の再構成を減らすために、スタディごとの直交的な Q-ミキシング拡張を組み込む。
  • 漏洩レベル L0/L1/L2 と攻撃ファミリ A(再構成)、B(レコード連結)、C(所属推定)、D(属性推定)を備えたプライバシー評価プロトコルを形式化する。
  • 夜間の CPU のみ運用と構成可能なプライバシープロファイルを可能にする EHR-Privacy-Agent アーキテクチャを記述する。

実験結果

リサーチクエスチョン

  • RQ1構造化 EHR データを、臨床的に関連する統計を保持しつつ機微属性の正確な回復を妨げる解釈可能な数値ビューへどう変換できるか?
  • RQ2統一された α 境界の下で提案された幾何列ごとの演算子は、再現および推論攻撃に対して非可逆性を達成できるか?脅威モデル内で?
  • RQ3人間–AI 共設計のワークフローは、病院内で実用的なプライバシー保護変換の生成・評価・展開を効果的に行えるか?
  • RQ4Q-ミキシング拡張が、ユーティリティを損なうことなく高リスク変数を保護する影響は?
  • RQ5ICU データ設定(MIMIC-IV 部分集合)で、プライバシー保証とデータの有用性はどうなるか?

主な発見

  • 幾何学的な平均–分散フレームワークが、探索的データ分析や QA に適したプライバシー制御済みの可視化 EHR ビューを可能にする。
  • 3つの基本演算子(T1、T2、T3)と Q-ミキシングは、述べられた脅威モデルと調整可能な α-プライバシー物差しの下で非可逆変換を提供する。
  • 院内 EHR-Privacy-Agent システムは、構成可能なプライバシープロファイルを備えた夜間の CPU-only 展開をサポートする。
  • 経験的評価は、α の増加が演算子全体で再構成および所属保護の代理指標を改善することを示す。
  • 人間–AI 共設計の方法論は、SciencePal を初期アイデアに、人間が検証することで、展開可能なプライバシー保護演算子と攻撃サーフェス文書を生み出す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。