Skip to main content
QUICK REVIEW

[论文解读] Identifying Participants in the Personal Genome Project by Name (A Re-identification Experiment)

Latanya Sweeney, Akua Abu|arXiv (Cornell University)|Apr 29, 2013
Climate Change Communication and Perception参考文献 2被引用 54
一句话总结

本研究表明,通过将个人基因组计划(PGP)参与者公开分享的人口统计数据(如出生日期、性别和邮政编码)与外部公开记录(如选民名单和姓名匹配技术)关联,可实现对其身份的重新识别。仅使用人口统计数据,研究人员便成功重新识别了84–97%的PGP档案,揭示了一项关键的隐私漏洞,该漏洞可通过对研究实用性影响极小的措施加以缓解。

ABSTRACT

We linked names and contact information to publicly available profiles in the Personal Genome Project. These profiles contain medical and genomic information, including details about medications, procedures and diseases, and demographic information, such as date of birth, gender, and postal code. By linking demographics to public records such as voter lists, and mining for names hidden in attached documents, we correctly identified 84 to 97 percent of the profiles for which we provided names. Our ability to learn their names is based on their demographics, not their DNA, thereby revisiting an old vulnerability that could be easily thwarted with minimal loss of research value. So, we propose technical remedies for people to learn about their demographics to make better decisions.

研究动机与目标

  • 调查仅使用公开可获取的人口统计数据,是否可行重新识别个人基因组计划中的个体。
  • 评估在开放获取研究项目中共享详细的人口统计和基因组信息所伴随的隐私风险。
  • 评估是否可在不访问基因组序列的情况下,仅依靠非基因组个人标识符实现重新识别。
  • 提出实用的技术解决方案,使个人在参与基因组研究前能够评估自身的重新识别风险。
  • 证明通过修改数据共享实践,可在对研究价值影响极小的情况下显著提升隐私保护。

提出的方法

  • 从公开可访问的PGP档案中收集人口统计数据(姓名、出生日期、性别、邮政编码)。
  • 搜索公开记录(如选民登记名单),以将姓名与人口统计数据档案匹配。
  • 使用姓名匹配算法,从与PGP档案相关的扫描文档中提取姓名。
  • 在多个公开数据库之间交叉核对人口统计数据属性,以提高重新识别的准确性。
  • 基于人口统计数据组合的一致性和唯一性,评估重新识别的成功率。
  • 提出技术机制,帮助个人在共享数据前评估自身的重新识别风险。

实验结果

研究问题

  • RQ1在多大程度上,个人基因组计划中的个体可仅通过其人口统计数据被重新识别?
  • RQ2公开记录(如选民名单)在将姓名与开放基因组数据库中的人口统计数据档案关联方面有多有效?
  • RQ3人口统计数据组合的独特性(例如出生日期、性别和邮政编码)是否会增加重新识别风险?
  • RQ4是否可在不访问基因组数据的情况下实现重新识别,这对开放科学中的隐私意味着什么?
  • RQ5可实施哪些技术解决方案,以在保留基因组研究数据实用性的同时降低重新识别风险?

主要发现

  • 研究人员仅通过将人口统计数据与公开记录关联,便成功重新识别了84至97%的PGP参与者。
  • 重新识别完全依赖于出生日期、性别和邮政编码等人口统计数据属性,未使用基因组序列。
  • 高成功率表明,仅人口统计数据本身在开放获取基因组研究中即构成重大隐私风险。
  • 该漏洞源于精确人口统计数据的组合,即使无DNA数据,也能唯一识别个体。
  • 本研究证实,仅需极少技术投入即可实现重新识别,凸显了当前数据共享实践中存在的系统性隐私缺陷。
  • 作者提出了技术补救措施,使个人能够评估自身的重新识别风险,从而支持知情同意决策。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。