QUICK REVIEW

[论文解读] Anonymizing Sensor Data on the Edge: A Representation Learning and Transformation Approach

Omid Hajihassani, Omid Ardakanian|arXiv (Cornell University)|Nov 16, 2020

Privacy-Preserving Technologies in Data参考文献 53被引用 11

一句话总结

本文提出了一种用于物联网传感器数据的对抗性模型无关匿名化技术，该技术利用属性特定的变分自编码器（VAEs）学习潜在表征，随后在潜在空间中应用确定性或概率性变换以隐藏私有属性，同时保留公共属性。该方法可在树莓派等边缘设备上实现实时匿名化，相较于基于对抗性模型的基线方法，在隐私保护和效用保留方面表现更优。

ABSTRACT

The abundance of data collected by sensors in Internet of Things (IoT) devices, and the success of deep neural networks in uncovering hidden patterns in time series data have led to mounting privacy concerns. This is because private and sensitive information can be potentially learned from sensor data by applications that have access to this data. In this paper, we aim to examine the tradeoff between utility and privacy loss by learning low-dimensional representations that are useful for data obfuscation. We propose deterministic and probabilistic transformations in the latent space of a variational autoencoder to synthesize time series data such that intrusive inferences are prevented while desired inferences can still be made with sufficient accuracy. In the deterministic case, we use a linear transformation to move the representation of input data in the latent space such that the reconstructed data is likely to have the same public attribute but a different private attribute than the original input data. In the probabilistic case, we apply the linear transformation to the latent representation of input data with some probability. We compare our technique with autoencoder-based anonymization techniques and additionally show that it can anonymize data in real time on resource-constrained edge devices.

研究动机与目标

为解决物联网传感器数据中的隐私-效用权衡问题，实现在资源受限边缘设备上的实时匿名化。
在不依赖特定模型的对抗性训练情况下，防止属性推理攻击。
设计一种可扩展的、模型无关的匿名化框架，在隐藏私有属性的同时保留公共属性的效用。
在真实HAR数据集上评估该技术，并在低功耗边缘硬件（如树莓派）上展示其可行性。
探索边缘计算与云环境在匿名化工作负载中的性能权衡。

提出的方法

为每个公共属性类别训练属性特定的VAE，以学习紧凑且任务特定的潜在表征。
在VAE损失中增加交叉熵项以进行私有属性分类，从而在潜在空间中围绕私有属性类别进行结构化。
对潜在表征应用确定性或概率性线性变换，将其移向不同的私有属性，同时保持公共属性身份不变。
由中心服务器广播每对公共-私有属性的平均潜在表征，边缘设备在推理时使用该表征。
在边缘端使用预先训练的分类器，根据预测的公共属性选择合适的VAE和平均潜在表征。
完全在设备端执行匿名化流水线，确保原始数据不会离开边缘设备，且无需信任中心服务器。

实验结果

研究问题

RQ1基于VAE的潜在空间变换方法能否在保留公共属性效用的同时有效匿名化传感器数据？
RQ2所提出的对抗性模型无关技术相较于基于对抗性模型的基线方法，在抵御属性推理攻击方面表现如何？
RQ3该匿名化流水线能否在低功耗边缘设备（如树莓派）上实现实时运行？
RQ4使用确定性与概率性潜在空间变换的性能影响如何？
RQ5将部分匿名化任务卸载至云端是否在延迟和能效方面具有优势？

主要发现

所提方法在MotionSense和MobiAct数据集中均将私有属性推理准确率降低至接近随机猜测水平（≈50%），表明具有强大的隐私保护能力。
在树莓派3 Model B上，匿名化流水线的延迟为每嵌入5.63毫秒，支持实时运行。
概率性变换方法通过将推理准确率降至50%，实现了接近最优的隐私保护效果，接近理论最小值。
在公共属性识别准确率的度量下，该方法在隐私保护和效用保留方面均优于基于对抗性模型的基线方法。
将匿名化流水线划分为云卸载部分并未带来优势，因网络延迟过高，导致边缘执行更为高效。
使用属性特定的VAE相比单一共享VAE，显著减小了模型尺寸并提升了匿名化性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。