Skip to main content
QUICK REVIEW

[論文レビュー] Anonymizing Sensor Data on the Edge: A Representation Learning and Transformation Approach

Omid Hajihassani, Omid Ardakanian|arXiv (Cornell University)|Nov 16, 2020
Privacy-Preserving Technologies in Data参考文献 53被引用数 11
ひとこと要約

本稿では、属性固有の変分オートエンコーダー(VAE)を用いて潜在表現を学習し、その後、潜在空間における決定論的または確率論的変換を適用して個人情報を隠蔽しながらも、公開属性を保持する、敵対的でモデルフリーなIoTセンサデータの匿名化手法を提案する。この手法は、ラズベリーパイなどのエッジデバイスでもリアルタイムの匿名化を実現し、敵対的でモデルベースのベースラインを上回るプライバシー保護とデータ利用価値の両立を達成している。

ABSTRACT

The abundance of data collected by sensors in Internet of Things (IoT) devices, and the success of deep neural networks in uncovering hidden patterns in time series data have led to mounting privacy concerns. This is because private and sensitive information can be potentially learned from sensor data by applications that have access to this data. In this paper, we aim to examine the tradeoff between utility and privacy loss by learning low-dimensional representations that are useful for data obfuscation. We propose deterministic and probabilistic transformations in the latent space of a variational autoencoder to synthesize time series data such that intrusive inferences are prevented while desired inferences can still be made with sufficient accuracy. In the deterministic case, we use a linear transformation to move the representation of input data in the latent space such that the reconstructed data is likely to have the same public attribute but a different private attribute than the original input data. In the probabilistic case, we apply the linear transformation to the latent representation of input data with some probability. We compare our technique with autoencoder-based anonymization techniques and additionally show that it can anonymize data in real time on resource-constrained edge devices.

研究の動機と目的

  • リソース制限のあるエッジデバイス上でリアルタイムの匿名化を可能にすることで、IoTセンサデータにおけるプライバシーと利用価値のトレードオフを解消すること。
  • 特定のモデルを用いた敵対的訓練に依存せずに、属性推定攻撃を防止すること。
  • 公開属性の利用価値を保持しながらも、個人属性を隠蔽するスケーラブルでモデルフリーな匿名化フレームワークを設計すること。
  • 実際のHARデータセットを用いて技術の有効性を評価し、低消費電力のエッジハードウェア(例:ラズベリーパイ)上での実装可能性を示すこと。
  • 匿名化ワークロードにおけるエッジとクラウドの計算のトレードオフを調査すること。

提案手法

  • 各公開属性クラスごとに属性固有のVAEを訓練し、タスク固有のコンパクトな潜在表現を学習する。
  • 潜在空間が個人属性クラスに沿って構造化されるように、個人属性分類のための交差エントロピー項をVAEの損失関数に追加する。
  • 潜在表現に対して、決定論的または確率論的な線形変換を適用し、異なる個人属性に沿ってその表現をシフトさせつつも、公開属性の同一性を維持する。
  • 中央サーバーが各公開属性・個人属性ペアの平均潜在表現をブロードキャストし、エッジデバイスは推論時にこれを使用する。
  • エッジ側で事前に訓練された分類器を用いて、予測された公開属性に基づき適切なVAEおよび平均潜在表現を選択する。
  • 匿名化パイプラインを完全にデバイス上ですべて実行し、生データがエッジを離れることを防ぎ、中央サーバーに対する信頼を必要としない。

実験結果

リサーチクエスチョン

  • RQ1VAEに基づく潜在空間変換アプローチは、公開属性の利用価値を保持しつつ、センサデータの匿名化を効果的に行えるか?
  • RQ2提案手法の敵対的でモデルフリーな手法は、敵対的でモデルベースのベースラインと比較して、属性推定攻撃に対してどれほど効果的か?
  • RQ3ラズベリーパイのような低消費電力のエッジデバイス上で、匿名化パイプラインをリアルタイムに実行できるか?
  • RQ4決定論的変換と確率論的変換の両者を用いた場合、潜在空間変換のパフォーマンスにどのような影響があるか?
  • RQ5クラウドに匿名化の一部をオフロードすることは、遅延とエネルギー効率の観点から有益か?

主な発見

  • 提案手法は、MotionSenseおよびMobiActの両データセットにおいて、個人属性の推定精度をほぼランダムな推測水準(≈50%)まで低下させ、強力なプライバシー保護を示した。
  • ラズベリーパイ3 Model B上での1埋め込みあたりの遅延が5.63 msにまで短縮され、リアルタイム動作が実現した。
  • 確率論的変換アプローチにより、推定精度を50%まで低下させ、理論的最小限に近いプライバシー保護が達成された。
  • 公開属性認識精度の観点からも、提案手法は敵対的でモデルベースのベースラインを上回り、プライバシー保護と利用価値の両面で優れた性能を示した。
  • 匿名化パイプラインのクラウドオフロードを分割して実行したが、ネットワーク遅延が高いため、エッジでの実行がより効率的であった。
  • 属性固有のVAEの使用により、単一の共有VAEと比較してモデルサイズが削減され、匿名化のパフォーマンスが向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。