Skip to main content
QUICK REVIEW

[论文解读] Privacy-Preserving Personal Model Training

Sandra Servia-Rodríguez, Liang Wang|arXiv (Cornell University)|Mar 1, 2017
Privacy-Preserving Technologies in Data参考文献 40被引用 1
一句话总结

本文提出了一种保护隐私的个性化模型训练框架,将机器学习计算从云端转移到用户的本地设备,利用迁移学习在个人数据上微调共享模型。该方法在提升模型准确率的同时,消除了将个人数据传输至远程服务器的需求,实现在资源受限设备(如树莓派3)上的可行性。

ABSTRACT

Many current Internet services rely on inferences from models trained on user data. Commonly, both the training and inference tasks are carried out using cloud resources fed by personal data collected at scale from users. Holding and using such large collections of personal data in the cloud creates privacy risks to the data subjects, but is currently required for users to benefit from such services. We explore how to provide for model training and inference in a system where computation is pushed to the data in preference to moving data to the cloud, obviating many current privacy risks. Specifically, we take an initial model learnt from a small set of users and retrain it locally using data from a single user. We evaluate on two tasks: one supervised learning task, using a neural network to recognise users' current activity from accelerometer traces; and one unsupervised learning task, identifying topics in a large set of documents. In both cases the accuracy is improved. We also analyse the robustness of our approach against adversarial attacks, as well as its feasibility by presenting a performance evaluation on a representative resource-constrained device (a Raspberry Pi).

研究动机与目标

  • 解决云基机器学习服务中集中化数据收集带来的日益增长的隐私担忧。
  • 实现在不将个人数据传输至不可信云端环境的前提下,实现高精度的模型训练。
  • 证明个性化模型训练可在低资源设备(如树莓派)上高效执行。
  • 在监督学习(活动识别)和无监督学习(主题建模)任务上评估该方法。
  • 评估该方法在对抗性攻击下的鲁棒性及其在边缘设备上的可行性。

提出的方法

  • 两步训练流程:首先在云端使用少量用户数据训练共享模型;其次在每个用户的本地设备上使用个人数据重新训练该模型。
  • 利用迁移学习在本地数据有限时提升性能,以预训练模型作为起点。
  • 在监督学习中应用神经网络(WISDM数据集),在无监督主题建模中使用潜在狄利克雷分布(LDA)(Wikipedia和NIPS数据集)。
  • 在设备上同时执行推理和本地重训练,避免数据外泄。
  • 采用保护隐私的范式,确保数据始终留在用户设备上,降低攻击面和滥用风险。
  • 在树莓派3 Model B上评估性能和鲁棒性,以评估实际可行性。

实验结果

研究问题

  • RQ1是否可以在资源受限设备(如树莓派)上有效执行个性化模型训练,而不会影响性能?
  • RQ2与仅在本地数据上训练或传统云基方法相比,共享模型的本地重训练是否能提升准确率?
  • RQ3在保护隐私的设置下,该方法对对抗性攻击的鲁棒性如何?
  • RQ4该方法在多大程度上可降低机器学习系统中集中化数据收集带来的隐私风险?
  • RQ5该方法能否在不同学习任务中实现泛化,包括监督学习和无监督学习?

主要发现

  • 对于监督学习(活动识别)和无监督学习(主题建模)任务,共享模型的本地重训练均显著提升了准确率,优于仅在本地数据上训练的模型。
  • 该方法在树莓派3 Model B上实现了可行的推理和重训练时间,证明其在低功耗边缘设备上的可行性。
  • 该方法对对抗性攻击表现出韧性,表明其在真实部署场景中的鲁棒性。
  • 通过将个人数据保留在设备上,该方法显著降低了因数据泄露和未经授权使用数据而带来的隐私风险。
  • 该框架实现了个性化、高精度的机器学习,且无需用户向云服务提供商或第三方共享原始数据。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。