[论文解读] SenseGen: A Deep Learning Architecture for Synthetic Sensor Data Generation
SenseGen 提出了一种深度学习架构,通过堆叠的 LSTM 网络和混合密度网络(MDN)生成合成传感器数据,以保留统计特性。该方法采用基于 LSTM 的判别器进行对抗性训练,使判别器在区分真实与合成的加速度计轨迹时准确率接近 50%,表明其具备强大的隐私保护真实性。
Our ability to synthesize sensory data that preserves specific statistical properties of the real data has had tremendous implications on data privacy and big data analytics. The synthetic data can be used as a substitute for selective real data segments,that are sensitive to the user, thus protecting privacy and resulting in improved analytics.However, increasingly adversarial roles taken by data recipients such as mobile apps, or other cloud-based analytics services, mandate that the synthetic data, in addition to preserving statistical properties, should also be difficult to distinguish from the real data. Typically, visual inspection has been used as a test to distinguish between datasets. But more recently, sophisticated classifier models (discriminators), corresponding to a set of events, have also been employed to distinguish between synthesized and real data. The model operates on both datasets and the respective event outputs are compared for consistency. In this paper, we take a step towards generating sensory data that can pass a deep learning based discriminator model test, and make two specific contributions: first, we present a deep learning based architecture for synthesizing sensory data. This architecture comprises of a generator model, which is a stack of multiple Long-Short-Term-Memory (LSTM) networks and a Mixture Density Network. second, we use another LSTM network based discriminator model for distinguishing between the true and the synthesized data. Using a dataset of accelerometer traces, collected using smartphones of users doing their daily activities, we show that the deep learning based discriminator model can only distinguish between the real and synthesized traces with an accuracy in the neighborhood of 50%.
研究动机与目标
- 解决传感器应用中日益增长的隐私保护合成数据需求,例如健康监测和活动识别。
- 克服以往合成数据方法依赖手工设计特征保留的局限性,这些方法容易受到对抗性分类器的攻击。
- 开发一种生成模型,能够生成即使在基于深度学习的高级鉴别方法下也难以与真实数据区分的合成时间序列传感器数据。
- 证明所生成的合成数据能够逃避针对真实与生成数据之间分布差异进行训练的深度学习判别器的检测。
提出的方法
- 使用由堆叠的长短期记忆(LSTM)网络和混合密度网络(MDN)组成的生成器模型,以建模传感器时间序列中的复杂时间依赖性和输出分布。
- 通过最小化真实下一步值的负对数似然损失来训练生成器,以提升其生成真实序列的能力。
- 实现一个独立的基于 LSTM 的判别器模型,使用二元交叉熵损失,用于将输入序列分类为真实或生成数据。
- 以两阶段流程训练生成器与判别器:首先在真实数据上训练生成器,然后在真实与生成样本上联合训练判别器。
- 在判别器训练过程中,对真实与生成数据均使用 400 步的时间序列序列作为小批量输入。
- 由于难以通过随机 MDN 组件进行反向传播,尚未实现端到端的对抗性反馈。
实验结果
研究问题
- RQ1基于深度学习的生成模型能否生成在统计上与真实加速度计轨迹无法区分的合成传感器数据?
- RQ2基于深度学习的判别器在多大程度上能够检测出仅保留统计特性的模型所生成的合成数据?
- RQ3使用自动学习特征的判别器(而非依赖预设特征)是否能提升合成数据的鲁棒性?
- RQ4即使判别器被训练用于发现细微的分布差异,生成器是否仍能训练出可逃避检测的合成数据?
主要发现
- 经过充分训练后,判别器在区分真实与合成加速度计轨迹时的准确率降至约 50%,表明合成数据与真实数据几乎无法区分。
- 随着训练进行,生成器的负对数似然损失持续下降,表明其对时间序列中真实下一步值分布的建模能力得到提升。
- 对生成样本的视觉检查显示其与真实加速度计轨迹高度相似,未发现明显伪影或结构偏差。
- 判别器最初几乎能 100% 准确检测出合成样本,但随着生成器性能提升,其准确率逐渐下降至接近随机水平(50%),证明了对检测的有效规避。
- 该模型在 HAR 数据集的 7,000 个时间步真实加速度计数据上进行训练,使用 TensorFlow 在 GPU 上运行,约 5 小时内完成 20,000 个周期的收敛。
- 当前架构尚未整合端到端对抗性训练,原因在于难以通过随机 MDN 层进行反向传播,但这是未来的重要目标。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。