[論文レビュー] SenseGen: A Deep Learning Architecture for Synthetic Sensor Data Generation
SenseGenは、LSTMネットワークのスタックと混合密度ネットワーク(MDN)を用いて、統計的性質を保持する合成センサデータを生成する深層学習アーキテクチャを提案する。敵対的訓練手法を採用し、LSTMベースの識別器を用いることで、本物の加速度計トレースと合成トレースを区別する精度がほぼ50%にまで低下し、強力なプライバシー保護的リアルリズムを示している。
Our ability to synthesize sensory data that preserves specific statistical properties of the real data has had tremendous implications on data privacy and big data analytics. The synthetic data can be used as a substitute for selective real data segments,that are sensitive to the user, thus protecting privacy and resulting in improved analytics.However, increasingly adversarial roles taken by data recipients such as mobile apps, or other cloud-based analytics services, mandate that the synthetic data, in addition to preserving statistical properties, should also be difficult to distinguish from the real data. Typically, visual inspection has been used as a test to distinguish between datasets. But more recently, sophisticated classifier models (discriminators), corresponding to a set of events, have also been employed to distinguish between synthesized and real data. The model operates on both datasets and the respective event outputs are compared for consistency. In this paper, we take a step towards generating sensory data that can pass a deep learning based discriminator model test, and make two specific contributions: first, we present a deep learning based architecture for synthesizing sensory data. This architecture comprises of a generator model, which is a stack of multiple Long-Short-Term-Memory (LSTM) networks and a Mixture Density Network. second, we use another LSTM network based discriminator model for distinguishing between the true and the synthesized data. Using a dataset of accelerometer traces, collected using smartphones of users doing their daily activities, we show that the deep learning based discriminator model can only distinguish between the real and synthesized traces with an accuracy in the neighborhood of 50%.
研究の動機と目的
- 健康モニタリングやアクティビティ認識などのセンサベースの応用分野におけるプライバシー保護型合成データの増大するニーズに対応する。
- 手作業で特徴を保存する手法に依存する従来の合成データ生成法の限界を克服し、敵対的分類器に対して脆弱でないものとする。
- 洗練された深層学習ベースの識別技術に対しても、本物のデータと区別できない合成時系列センサデータを生成できる生成モデルを開発する。
- 合成データが、本物と生成データの分布的差異を検出するように訓練された深層学習識別器によって検出されないことを実証する。
提案手法
- 時系列センサデータ内の複雑な時間的依存関係と出力分布をモデル化するため、スタックされた長短期記憶(LSTM)ネットワークと混合密度ネットワーク(MDN)から構成されるジェネレータモデルを用いる。
- ジェネレータを、真の次のステップ値の負の対数尤度を最小化するように訓練することで、現実的な時系列を予測する能力を向上させる。
- 入力シーケンスを本物または生成データとして分類する目的で、二値交差エントロピー損失を用いて訓練された別個のLSTMベースの識別器モデルを実装する。
- ジェネレータと識別器を二段階のプロセスで訓練する:まず本物データでジェネレータを訓練し、その後本物データと生成データの両方で識別器を訓練する。
- 識別器の訓練中に、本物データおよび生成データの両方の400ステップの時系列シーケンスのミニバッチを用いる。
- 確率的MDNコンponentを介した逆誤差伝搬の課題があるため、まだエンドツーエンドの敵対的フィードバックを実装していない。
実験結果
リサーチクエスチョン
- RQ1深層学習ベースの生成モデルは、本物の加速度計トレースと統計的に区別できない合成センサデータを生成できるか?
- RQ2本物のデータと生成データの分布的差異を検出するように訓練された深層学習識別器は、統計的性質のみを保持するモデルが生成する合成データをどの程度検出できるか?
- RQ3事前に指定された特徴に依存せず、自動的に特徴を学習する識別器を使用することで、合成データの耐性が向上するか?
- RQ4識別器が微細な分布的差異を検出するように訓練されている場合でも、ジェネレータが識別器を回避するように訓練できるか?
主な発見
- 十分に訓練された後、識別器が本物の加速度計トレースと合成トレースを区別する精度が約50%まで低下した。これは、合成データが本物のデータとほとんど区別できないことを示している。
- ジェネレータの負の対数尤度損失は時間経過とともに減少し、時系列における真の次のステップ値の分布をより良くモデル化していることが示された。
- 生成されたサンプルの可視的点検では、本物の加速度計トレースと強い類似性が確認され、顕著なアーチファクトや構造的ずれは認められなかった。
- 識別器は初期段階で合成サンプルをほぼ100%の精度で検出できたが、ジェネレータの性能向上に伴い、次第にランダムな性能(約50%)に収束した。これは、効果的な検出回避が達成されたことを示している。
- モデルはHARデータセットからの7,000ステップの本物の加速度計データを用いて、GPU上でTensorFlowを用いて訓練され、約5時間で20,000エポックで収束した。
- 現在のアーキテクチャでは、確率的MDNレイヤーを介した逆誤差伝搬の課題があるため、エンドツーエンドの敵対的訓練はまだ実装されていないが、将来的な目標として残っている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。