[论文解读] Anomaly Detection and Redundancy Elimination of Big Sensor Data in Internet of Things
本文提出了一种用于物联网中大规模传感器数据的两阶段预处理框架,结合主统计分析与贝叶斯网络进行异常检测,并利用静态/动态贝叶斯网络实现冗余消除。所提出的方法——SSDRDA(静态传感器数据冗余检测算法)用于静态数据,RSDRDA(实时传感器数据冗余检测算法)用于实时数据——在检测冗余节点方面表现出高精度,RMSE结果验证了其在数据恢复与预测方面的有效性。
In the era of big data and Internet of things, massive sensor data are gathered with Internet of things. Quantity of data captured by sensor networks are considered to contain highly useful and valuable information. However, for a variety of reasons, received sensor data often appear abnormal. Therefore, effective anomaly detection methods are required to guarantee the quality of data collected by those sensor nodes. Since sensor data are usually correlated in time and space, not all the gathered data are valuable for further data processing and analysis. Preprocessing is necessary for eliminating the redundancy in gathered massive sensor data. In this paper, the proposed work defines a sensor data preprocessing framework. It is mainly composed of two parts, i.e., sensor data anomaly detection and sensor data redundancy elimination. In the first part, methods based on principal statistic analysis and Bayesian network is proposed for sensor data anomaly detection. Then, approaches based on static Bayesian network (SBN) and dynamic Bayesian networks (DBNs) are proposed for sensor data redundancy elimination. Static sensor data redundancy detection algorithm (SSDRDA) for eliminating redundant data in static datasets and real-time sensor data redundancy detection algorithm (RSDRDA) for eliminating redundant sensor data in real-time are proposed. The efficiency and effectiveness of the proposed methods are validated using real-world gathered sensor datasets.
研究动机与目标
- 解决由于数据异常与冗余导致的物联网传感器数据处理管道中的关键预处理需求。
- 通过检测偏离预期模式的异常传感器读数来提升数据质量。
- 通过消除传感器网络中的时空冗余数据,降低存储与传输开销。
- 针对传感器数据的动态性与相关性,开发适用于批处理与实时处理的解决方案。
- 通过数据恢复的RMSE指标,验证冗余检测的可行性与准确性。
提出的方法
- 利用主统计分析与贝叶斯网络,通过建模预期数据行为来检测异常。
- 应用静态贝叶斯网络(SBN)识别预先收集的静态传感器数据集中的冗余节点。
- 采用具有时变转移模型的动态贝叶斯网络(DBN),检测实时流数据中的冗余。
- 提出SSDRDA(静态传感器数据冗余检测算法),基于父节点相似性加权方法,用于批处理冗余检测。
- 开发RSDRDA(实时传感器数据冗余检测算法),利用时变DBN预测传感器节点状态(唤醒/休眠),并标记冗余数据生成。
- 基于父节点相似性,采用加权平均法估算冗余节点中的缺失数据,以RMSE评估预测精度。
实验结果
研究问题
- RQ1在具有强时空相关性的大规模异构物联网数据集中,如何有效检测传感器数据异常?
- RQ2静态贝叶斯网络在预先收集的非流式数据集中,能在多大程度上识别冗余传感器数据?
- RQ3动态贝叶斯网络能否建模实时环境中传感器行为的演化,以在数据传输前检测冗余数据生成?
- RQ4基于贝叶斯网络结构中父节点相似性的加权估计方法,其对冗余数据的预测精度如何?
- RQ5所提出的算法在数据恢复精度方面的表现如何,以RMSE为度量标准?
主要发现
- 基于主统计与贝叶斯网络的异常检测方法在保持高召回率的同时,提升了精确率,优于传统方法。
- SSDRDA在静态数据集中成功识别出冗余节点,且在温湿度数据中检测到的冗余程度高于麦克风数据,原因在于温湿度数据波动较小。
- RSDRDA能有效实时预测传感器节点状态(唤醒/休眠),借助时变DBN模型实现主动冗余检测。
- 使用SSDRDA估计方法进行数据恢复时,温湿度数据的平均RMSE低于麦克风数据,反映出对更平稳数据流的更高预测精度。
- RSDRDA算法在实时数据预测中实现了低RMSE,证明其在动态环境中的可行性与有效性。
- 基于父节点相似性的加权估计方法为冗余数据重建提供了可靠手段,定量的RMSE结果证实了算法的准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。