[논문 리뷰] SenseGen: A Deep Learning Architecture for Synthetic Sensor Data Generation
SenseGen은 LSTM 네트워크 스택과 혼합 밀도 네트워크(MDN)를 사용하여 통계적 특성을 유지하면서 합성 센서 데이터를 생성하는 딥러닝 아키텍처를 제안한다. 이는 LSTM 기반의 판별자와 함께 적대적 훈련을 수행하며, 실제와 합성 가속도계 트레이스를 구분하는 데 약 50%의 정확도를 기록하여 강력한 개인정보 보호적 현실감을 입증한다.
Our ability to synthesize sensory data that preserves specific statistical properties of the real data has had tremendous implications on data privacy and big data analytics. The synthetic data can be used as a substitute for selective real data segments,that are sensitive to the user, thus protecting privacy and resulting in improved analytics.However, increasingly adversarial roles taken by data recipients such as mobile apps, or other cloud-based analytics services, mandate that the synthetic data, in addition to preserving statistical properties, should also be difficult to distinguish from the real data. Typically, visual inspection has been used as a test to distinguish between datasets. But more recently, sophisticated classifier models (discriminators), corresponding to a set of events, have also been employed to distinguish between synthesized and real data. The model operates on both datasets and the respective event outputs are compared for consistency. In this paper, we take a step towards generating sensory data that can pass a deep learning based discriminator model test, and make two specific contributions: first, we present a deep learning based architecture for synthesizing sensory data. This architecture comprises of a generator model, which is a stack of multiple Long-Short-Term-Memory (LSTM) networks and a Mixture Density Network. second, we use another LSTM network based discriminator model for distinguishing between the true and the synthesized data. Using a dataset of accelerometer traces, collected using smartphones of users doing their daily activities, we show that the deep learning based discriminator model can only distinguish between the real and synthesized traces with an accuracy in the neighborhood of 50%.
연구 동기 및 목표
- 건강 모니터링 및 활동 인식과 같은 센서 기반 응용 분야에서 개인정보 보호적 합성 데이터에 대한 증가하는 수요를 해결한다.
- 수작업으로 설계된 특성 유지에 의존하는 기존 합성 데이터 방법의 한계를 극복하여, 적대적 분류기의 공격에 취약한 문제를 해결한다.
- 딥러닝 기반의 분별 기준으로도 구분이 불가능한, 실제 데이터와 구분이 어려운 합성 시계열 센서 데이터를 생성할 수 있는 생성 모델을 개발한다.
- 합성 데이터가 실제 데이터와 생성된 데이터 간 분포 차이를 탐지하도록 훈련된 딥러닝 판별자로부터 탐지되는 것을 방지할 수 있음을 입증한다.
제안 방법
- 시계열 센서 데이터의 복잡한 시간적 의존성과 출력 분포를 모델링하기 위해 스택된 장단기 기억(LSTM) 네트워크와 혼합 밀도 네트워크(MDN)로 구성된 생성자 모델을 사용한다.
- 진짜 다음 단계 값의 음의 로그우도를 최소화하도록 생성자를 훈련시켜 실제 시퀀스를 더 잘 예측할 수 있도록 한다.
- 이진 교차 엔트로피 손실을 사용하여 입력 시퀀스를 실제 또는 생성된 것으로 분류하는 데 목적이 있는 별도의 LSTM 기반 판별자 모델을 구현한다.
- 생성자와 판별자를 두 단계 과정에서 훈련한다: 먼저 실제 데이터로 생성자를 훈련하고, 그 다음 실제 및 생성된 샘플로 판별자를 훈련한다.
- 판별자 훈련 중 실제 및 생성된 데이터에 대해 400단계의 시계열 시퀀스 미니배치를 사용한다.
- 스티ochastic한 MDN 구성 요소를 통한 역전파 문제로 인해 아직 종단 간 적대적 피드백을 구현하지 못했다.
실험 결과
연구 질문
- RQ1딥러닝 기반의 생성 모델이 실제 가속도계 트레이스와 통계적으로 구분이 불가능한 합성 센서 데이터를 생성할 수 있는가?
- RQ2실제로 통계적 특성만 유지하는 모델이 생성한 합성 데이터를 딥러닝 판별자가 얼마나 잘 탐지할 수 있는가?
- RQ3사전 지정된 특징에 의존하지 않고 자동으로 특징을 학습하는 판별자를 사용할 경우, 합성 데이터의 강건성이 향상되는가?
- RQ4생성자가 판별자가 미세한 분포 차이를 탐지하도록 훈련된 상황에서도, 합성 데이터를 탐지 방지할 수 있는가?
주요 결과
- 충분한 훈련 후 판별자의 실제와 합성 가속도계 트레이스를 구분하는 정확도가 약 50%로 떨어져, 합성 데이터가 실제 데이터와 거의 구분되지 않는다는 것을 시사한다.
- 생성자의 음의 로그우도 손실이 시간이 지남에 따라 감소하여 시계열에서 진짜 다음 단계 값 분포를 더 잘 모델링하고 있음을 보여준다.
- 생성 샘플의 시각적 점검 결과 실제 가속도계 트레이스와 유사성이 높았으며, 눈에 띄는 아티팩트나 구조적 이질성이 없었다.
- 판별자는 초기에 합성 샘플을 거의 100% 정확도로 탐지했지만, 생성자가 향상됨에 따라 근사적으로 무작위 성능(50%)으로 수렴하여 효과적인 탐지 회피를 보였다.
- 모델은 HAR 데이터셋의 7,000단계의 실제 가속도계 데이터를 사용하여 GPU에서 Tensorflow로 훈련되었으며, 약 5시간 만에 20,000 에포크 동안 수렴했다.
- 현재 아키텍처는 스티ochastic한 MDN 레이어를 통한 역전파 문제로 인해 종단 간 적대적 훈련을 아직 구현하지 못했지만, 향후 목표로 삼고 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.