Skip to main content
QUICK REVIEW

[논문 리뷰] Anomaly Detection and Redundancy Elimination of Big Sensor Data in Internet of Things

Sai Xie, Zhe Chen|arXiv (Cornell University)|2017. 03. 09.
Anomaly Detection Techniques and Applications참고 문헌 27인용 수 24
한 줄 요약

이 논문은 IoT에서 대규모 센서 데이터를 위한 이원적 사전처리 프레임워크를 제안하며, 이상 탐지에 주로 통계 분석과 베이지안 네트워크를 활용하고, 정적/동적 베이지안 네트워크를 활용해 중복 제거를 수행한다. SSDRDA(정적 센서 데이터 중복 탐지 알고리즘)와 RSDRDA(실시간 센서 데이터 중복 탐지 알고리즘)는 중복 노드 탐지에서 높은 정확도를 달성하였으며, RMSE 결과를 통해 데이터 복구 및 예측의 효과성을 검증하였다.

ABSTRACT

In the era of big data and Internet of things, massive sensor data are gathered with Internet of things. Quantity of data captured by sensor networks are considered to contain highly useful and valuable information. However, for a variety of reasons, received sensor data often appear abnormal. Therefore, effective anomaly detection methods are required to guarantee the quality of data collected by those sensor nodes. Since sensor data are usually correlated in time and space, not all the gathered data are valuable for further data processing and analysis. Preprocessing is necessary for eliminating the redundancy in gathered massive sensor data. In this paper, the proposed work defines a sensor data preprocessing framework. It is mainly composed of two parts, i.e., sensor data anomaly detection and sensor data redundancy elimination. In the first part, methods based on principal statistic analysis and Bayesian network is proposed for sensor data anomaly detection. Then, approaches based on static Bayesian network (SBN) and dynamic Bayesian networks (DBNs) are proposed for sensor data redundancy elimination. Static sensor data redundancy detection algorithm (SSDRDA) for eliminating redundant data in static datasets and real-time sensor data redundancy detection algorithm (RSDRDA) for eliminating redundant sensor data in real-time are proposed. The efficiency and effectiveness of the proposed methods are validated using real-world gathered sensor datasets.

연구 동기 및 목표

  • 데이터 이상 현상과 중복으로 인해 IoT 센서 데이터 파이프라인에서 사전처리의 필수적 필요성을 해결한다.
  • 기대 패턴에서 벗어나는 비정상적인 센서 읽기 값을 탐지하여 데이터 품질을 향상시킨다.
  • 센서 네트워크 내 공간-시간적 중복 데이터를 제거함으로써 저장 및 전송 오버헤드를 감소시킨다.
  • 센서 데이터의 동적이고 상관관계가 강한 특성에 맞는 실시간 및 배치 처리 솔루션을 개발한다.
  • RMSE를 지표로 사용하여 중복 탐지의 타당성과 정확도를 검증한다.

제안 방법

  • 기대되는 데이터 행동을 모델링함으로써 이상 탐지를 위해 주요 통계 분석과 베이지안 네트워크를 사용한다.
  • 사전 수집된 정적 센서 데이터 세트에서 정적 베이지안 네트워크(SBN)를 적용하여 중복 노드를 식별한다.
  • 시간에 따라 변화하는 전이 모델을 갖춘 동적 베이지안 네트워크(DBN)를 적용하여 실시간 스트리밍 데이터에서 중복을 탐지한다.
  • 부모 노드 유사도 기반 가중치를 사용한 배치 중복 탐지용 SSDRDA(정적 센서 데이터 중복 탐지 알고리즘)를 도입한다.
  • 시간에 따라 변화하는 DBN을 사용하여 센서 노드 상태(깨우기/수면)를 예측하고 중복 데이터 생성을 경고하는 RSDRDA(실시간 센서 데이터 중복 탐지 알고리즘)를 개발한다.
  • 부모 노드 유사도 기반 가중 평균 방법을 사용하여 중복 노드의 누락된 데이터를 추정하며, 예측 정확도 평가에 RMSE를 사용한다.

실험 결과

연구 질문

  • RQ1강한 시간적 및 공간적 상관관계를 가지는 대규모 이질적 IoT 데이터셋에서 센서 데이터 이상 현상을 효과적으로 탐지하는 방법은 무엇인가?
  • RQ2정적 베이지안 네트워크는 사전 수집된 스트리밍이 아닌 정적 데이터 세트에서 중복 센서 데이터를 어느 정도 식별할 수 있는가?
  • RQ3동적 베이지안 네트워크는 실시간에서 변화하는 센서 행동을 모델링하여 전송 이전에 중복 데이터 생성을 탐지할 수 있는가?
  • RQ4베이지안 네트워크 구조에서 부모 노드 유사도 기반 가중 추정을 사용할 경우 중복 데이터 예측의 정확도는 어느 정도인가?
  • RQ5RMSE로 측정된 데이터 복구 정확도 기준으로 제안된 알고리즘의 성능은 어떠한가?

주요 결과

  • 주요 통계와 베이지안 네트워크 기반의 제안된 이상 탐지 방법은 기존 방법에 비해 정밀도를 향상시키면서도 높은 재현율을 유지한다.
  • SSDRDA는 정적 데이터 세트에서 중복 노드를 성공적으로 식별하였으며, 온도 및 습도 데이터에서의 변동성이 낮아 마이크로폰 데이터보다 더 높은 중복성이 탐지되었다.
  • RSDRDA는 실시간에서 센서 노드 상태(깨우기/수면)를 효과적으로 예측하여 시간에 따라 변화하는 DBN 모델을 사용한 사전 중복 탐지가 가능하다.
  • SSDRDA 추정 방법을 사용한 데이터 복구의 평균 RMSE는 온도 및 습도 데이터에서 마이크로폰 데이터보다 낮았으며, 이는 더 부드러운 데이터 스트림에서 더 높은 예측 정확도를 반영한다.
  • RSDRDA 알고리즘은 실시간 데이터 예측에서 낮은 RMSE를 달성하여 동적 환경에서의 타당성과 효과성을 입증하였다.
  • 부모 노드 유사도 기반 가중 추정은 중복 데이터 재구성에 신뢰할 수 있는 방법을 제공하며, 정량적 RMSE 결과는 알고리즘 정확도를 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.