Skip to main content
QUICK REVIEW

[論文レビュー] Multi-Layer Privacy-Preserving Record Linkage with Clerical Review based on gradual information disclosure

Florens Rohde, Victor Christen|arXiv (Cornell University)|Dec 5, 2024
Privacy-Preserving Technologies in Data被引用数 1
ひとこと要約

本稿は、アクティブラーニングと段階的情報開示を統合することで、プライバシーリスクとラベル付け作業を低減するマルチレイヤー型プライバシー保護記録連携プロトコルを提案する。レコード固有のキーとレイヤー型事務的レビュー(属性レベルの符号化から始まり、必要に応じてマスクされた手動レビューに段階的に進む)を用いることで、最小限のプレーンテキスト露出で高い連携品質を達成し、再識別リスクを顕著に低減しながら、強力な性能を維持する。

ABSTRACT

Privacy-Preserving Record linkage (PPRL) is an essential component in data integration tasks of sensitive information. The linkage quality determines the usability of combined datasets and (machine learning) applications based on them. We present a novel privacy-preserving protocol that integrates clerical review in PPRL using a multi-layer active learning process. Uncertain match candidates are reviewed on several layers by human and non-human oracles to reduce the amount of disclosed information per record and in total. Predictions are propagated back to update previous layers, resulting in an improved linkage performance for non-reviewed candidates as well. The data owners remain in control of the amount of information they share for each record. Therefore, our approach follows need-to-know and data sovereignty principles. The experimental evaluation on real-world datasets shows considerable linkage quality improvements with limited labeling effort and privacy risks.

研究の動機と目的

  • ラベル付き学習データの不足により、プライバシー保護記録連携(PPRL)において低品質な連携と高いプライバシーリスクが生じる課題に対処すること。
  • レイヤー型レビュー処理を用いて、感覚的属性の段階的開示を可能にすることで、完全なプレーンテキストの事務的レビューの必要性を低減すること。
  • データ所有者がレコードごとに開示する情報を制御できるようにすることで、データ主権を維持し、必要最小限の情報開示原則を適用すること。
  • 予測結果を上位レイヤーから下位レイヤーにフィードバックすることで、アクティブラーニングを用いて連携性能を向上させること。
  • 属性レベルの符号化にレコード固有のキーを用いることで、周波数パターンに基づく再識別攻撃を緩和すること。

提案手法

  • プロトコルはマルチレイヤー・アーキテクチャを採用する:レイヤー1では、レコード固有のキーを用いたレコードレベルのブルームフィルタ符号化を実施し、周波数に基づく再識別攻撃を防止する。
  • レイヤー2では、レコード固有のキーを用いた属性レベルの符号化と類似度計算を実施し、より正確な分類を可能にする。
  • アクティブラーニングループにより、不確実なマッチ候補が選択され、属性レベル特徴を用いた自動分類からレビューが開始される。
  • 不確実性が最も高いペアのみが、マスクされた事務的レビューに段階的に昇格され、視覚的マスクを用いて部分的な属性情報が表示される。
  • 上位レイヤーからの予測結果が下位レイヤーのモデル改善にフィードバックされ、全体の連携精度が向上する。
  • 動的属性選択が適用され、要求される属性数が削減され、プライバシー露出が最小限に抑えられる。

実験結果

リサーチクエスチョン

  • RQ1レイヤー型アクティブラーニングアプローチは、PPRLにおける高品質な連携を維持しつつ、手動事務的レビューの必要数を削減できるか?
  • RQ2レコード固有のキーを用いた段階的情報開示は、周波数パターンに基づく再識別攻撃に対してどの程度効果的か?
  • RQ3上位レイヤーからの予測が、プライバシー保護環境下での下位レイヤーのモデル性能をどの程度向上できるか?
  • RQ4マスク付き事務的レビューは、完全なプレーンテキストレビューと比較して、プライバシーリスクとラベル付け作業の両面で優れているか?
  • RQ5属性選択戦略を用いることで、連携性能の劣化を招かずに、開示される感覚的属性の数を削減できるか?

主な発見

  • 本プロトコルは、属性レベルブルームフィルタ(ABF)を用いた強力なベースラインと同等の連携品質を達成したが、プライバシー強化の恩恵を受ける一方で、わずかに低い性能にとどまった。
  • 特に名前や生年月日といった高識別性を持つ属性に関しては、選択的開示とレコード固有のキーの使用により、再識別リスクが顕著に低減された。
  • プロセス終了時点で、不確実ペアの2–7%しか手動マスクレビューを経ずに済まなかったため、ラベル付け作業の効率性が極めて高かった。
  • 反復処理を通じて、自動属性レベルモデルによるレビュー対象の割合が40%から93%に上昇し、フィードバックによるモデルの洗練が効果的に実現された。
  • 硬化版ブルームフィルタの使用により、標準ABFと比較して全体の連携品質はわずかに低下したが、プライバシー上の利点は顕著であった。
  • 動的属性フィルタリングにより、要求される属性数が削減されたが、特に郵便番号に関しては、米国内の平均類似度が高いため、その効果は限定的であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。