Skip to main content
QUICK REVIEW

[论文解读] Strategies to facilitate access to detailed geocoding information using synthetic data

Jörg Drechsler, Jingchen Hu|arXiv (Cornell University)|Mar 15, 2018
Data-Driven Disease Surveillance参考文献 20被引用 3
一句话总结

本文評估了生成合成數據作為一種策略,以在保護機密性的情況下共享大型行政數據庫中的詳細地理編碼資訊。研究顯示,可擴展的合成器能維持分析有效性並降低披露風險,並為統計機構提出建議:當需要更強保護時,應優先對多個變數進行合成。

ABSTRACT

In this paper we investigate if generating synthetic data can be a viable strategy for providing access to detailed geocoding information for external researchers without compromising the confidentiality of the units included in the database. This research was motivated by a recent project at the Institute for Employment Research (IAB) in Germany that linked exact geocodes to the Integrated Employment Biographies, a large administrative database containing several million records. Based on these data we evaluate the performance of several synthesizers in terms of addressing the trade-off between preserving analytical validity and limiting the risk of disclosure. We propose strategies for making the synthesizers scalable for such large files, present analytical validity measures for the generated data and provide general recommendations for statistical agencies considering the synthetic data approach for disseminating detailed geographical information.We also illustrate that the commonly used disclosure avoidance strategy of providing geographical information only on an aggregated level will not offer substantial improvements in disclosure protection if coupled with synthesis. As we show in the online supplement accompanying this manuscript that synthesizing additional variables should be preferred if the level of protection from synthesizing only the geocodes is not considered sufficient.

研究动机与目标

  • 評估合成數據是否能安全地允許外部訪問大型行政數據庫中的詳細地理編碼資訊,同時不損害個體層次的機密性。
  • 評估不同合成器在維持分析有效性之餘,最小化披露風險的表現。
  • 開發適用於大型數據集(如IAB的整合就業歷程資料庫)的可擴展合成地理編碼生成策略。
  • 為考慮發布詳細地理資訊合成數據的統計機構提供具體可行的建議。

提出的方法

  • 本研究在IAB整合就業歷程資料庫的真實地理編碼數據上,評估多種生成模型(合成器)。
  • 使用距離準確性、空間聚類和變數相關性保持等指標,衡量分析有效性。
  • 透過高效的資料分割與模型優化,將合成器擴展以處理數百萬筆記錄。
  • 透過模擬基礎的風險評估,比較僅合成地理編碼與同時合成地理編碼與其他變數的披露風險。
  • 方法中納入風險-效用權衡框架,以指導模型選擇與配置。
  • 利用線上補充材料表明,當僅地理編碼合成保護不足時,合成輔助變數可顯著提升保護效果。

实验结果

研究问题

  • RQ1在共享大型行政數據庫中的詳細地理編碼資訊時,合成數據生成是否能有效平衡分析有效性與披露風險?
  • RQ2不同合成器在大規模地理編碼數據中,於維持空間準確性與變數關係方面表現如何?
  • RQ3在應用合成器於百萬筆記錄的地理編碼數據集時,面臨哪些可擴展性挑戰?又應如何解決?
  • RQ4當與數據合成結合時,僅在聚合層次提供地理資訊是否能顯著提升披露保護?
  • RQ5統計機構在何種情況下應將合成範圍擴展至地理編碼以外的其他變數,以獲得更強的隱私保護?

主要发现

  • 合成數據生成可在維持關鍵空間與人口統計指標的高分析有效性之餘,安全地傳播詳細地理編碼資訊。
  • 可擴展的合成器可有效應用於大型行政數據庫(如IAB的整合就業歷程資料庫),且不會顯著損失資料效用。
  • 單獨聚合地理資訊並不能顯著提升披露保護,特別是在個體層次的地理編碼仍被暴露的情況下。
  • 當僅地理編碼合成的風險被視為不足時,合成額外變數可顯著提升披露保護。
  • 本研究提供一個框架,供統計機構根據風險-效用權衡選擇與配置合成器,並提供明確的實施建議。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。