QUICK REVIEW

[论文解读] Multi-Layer Privacy-Preserving Record Linkage with Clerical Review based on gradual information disclosure

Florens Rohde, Victor Christen|arXiv (Cornell University)|Dec 5, 2024

Privacy-Preserving Technologies in Data被引用 1

一句话总结

本文提出了一种多层隐私保护记录链接协议，结合主动学习与渐进式信息披露，以降低隐私风险并减少标注工作量。通过使用记录特定的密钥和分层人工审核——从属性级别的编码开始，仅在必要时才升级为掩码式人工审核——该方法在最小化明文暴露的同时实现了高质量的链接效果，显著降低了再识别风险，同时保持了优异的性能。

ABSTRACT

Privacy-Preserving Record linkage (PPRL) is an essential component in data integration tasks of sensitive information. The linkage quality determines the usability of combined datasets and (machine learning) applications based on them. We present a novel privacy-preserving protocol that integrates clerical review in PPRL using a multi-layer active learning process. Uncertain match candidates are reviewed on several layers by human and non-human oracles to reduce the amount of disclosed information per record and in total. Predictions are propagated back to update previous layers, resulting in an improved linkage performance for non-reviewed candidates as well. The data owners remain in control of the amount of information they share for each record. Therefore, our approach follows need-to-know and data sovereignty principles. The experimental evaluation on real-world datasets shows considerable linkage quality improvements with limited labeling effort and privacy risks.

研究动机与目标

为解决因缺乏标注训练数据而导致的隐私保护记录链接（PPRL）中链接质量低和隐私风险高的挑战。
通过分层审核流程实现敏感属性的渐进式披露，减少对完整明文人工审核的需求。
通过允许数据拥有者控制每条记录的披露内容，维护数据主权并贯彻最小必要知情原则。
利用主动学习提升链接性能，即将高层预测结果回传以优化低层模型。
通过在属性级别编码中使用记录特定密钥并选择性披露属性，减轻再识别攻击风险。

提出的方法

该协议采用多层架构：第1层使用记录特定密钥的记录级布隆过滤器编码，以防范基于频率的再识别攻击。
第2层使用记录特定密钥的属性级别编码与相似度计算，以实现更精确的分类。
主动学习循环选择不确定的匹配候选对进行审核，从使用属性级别特征的自动化分类开始。
仅最不确定的配对被提升至掩码式人工审核，其中部分属性信息在视觉掩码下显示。
高层的预测结果被回传以优化低层模型，从而提升整体链接准确性。
动态应用属性选择以减少请求的属性数量，从而最小化隐私暴露。

实验结果

研究问题

RQ1分层主动学习方法是否能在保持高链接质量的同时减少所需的人员人工审核次数？
RQ2使用记录特定密钥的渐进式信息披露在基于频率模式的再识别攻击中有多大的缓解效果？
RQ3高层预测在隐私保护环境下对优化低层模型性能的提升程度如何？
RQ4与完整明文审核相比，使用掩码式人工审核在隐私风险和标注工作量方面有何差异？
RQ5属性选择策略是否能在不降低链接性能的前提下减少披露的敏感属性数量？

主要发现

该协议在仅略微降低性能的情况下，实现了与强基线（属性级别布隆过滤器，ABF）相当的链接质量，同时显著增强了隐私保护。
再识别风险大幅降低，特别是对于姓名和出生年份等高识别度属性，主要得益于选择性披露和记录特定密钥机制。
在流程结束时，仅有2–7%的不确定配对需要进行人工掩码审核，表明标注工作量具有极高效率。
通过迭代，由自动化属性级别模型审核的配对比例从40%提升至93%，表明通过反馈实现了有效的模型优化。
使用强化布隆过滤器相比标准ABF略微降低了整体链接质量，但隐私收益极为显著。
动态属性过滤减少了请求的属性数量，尤其在邮政编码方面效果明显，但因同一美国州内平均相似度较高，影响较弱。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。