Skip to main content
QUICK REVIEW

[论文解读] Electricity Theft Detection with self-attention

Paulo Finardi, Israel Campiotti|arXiv (Cornell University)|Feb 14, 2020
Electricity Theft Detection Techniques参考文献 25被引用 23
一句话总结

本文提出了一种混合深度学习模型,结合多头自注意力机制、空洞卷积和二值输入掩码,用于检测国家电网公司提供的不平衡真实日用电量数据中的窃电行为。通过注意力机制有效处理缺失值并捕捉长程时间依赖关系,该模型实现了0.926的AUC,较之前的工作提升了17%,并采用分位数标准化方法提升模型泛化能力。

ABSTRACT

In this work we propose a novel self-attention mechanism model to address electricity theft detection on an imbalanced realistic dataset that presents a daily electricity consumption provided by State Grid Corporation of China. Our key contribution is the introduction of a multi-head self-attention mechanism concatenated with dilated convolutions and unified by a convolution of kernel size $1$. Moreover, we introduce a binary input channel (Binary Mask) to identify the position of the missing values, allowing the network to learn how to deal with these values. Our model achieves an AUC of $0.926$ which is an improvement in more than $17\%$ with respect to previous baseline work. The code is available on GitHub at https://github.com/neuralmind-ai/electricity-theft-detection-with-self-attention.

研究动机与目标

  • 解决在缺失值率较高的不平衡真实用电量数据中检测窃电行为的挑战。
  • 在AUC、F1分数和训练效率方面超越当前最先进基线模型。
  • 引入二值输入通道(二值掩码),使模型能够学习如何处理缺失值而不引入重建偏差。
  • 利用自注意力机制捕捉日用电量序列中的长程时间依赖关系。
  • 验证分位数标准化和二维数据重塑在提升模型泛化能力方面的有效性。

提出的方法

  • 该模型采用混合架构,结合多头自注意力、空洞卷积和1x1卷积融合层,统一来自不同分支的特征。
  • 引入二值输入通道(二值掩码)以编码缺失值的位置,使网络能够在数据存在间隙的情况下学习鲁棒表征。
  • 将输入时间序列重塑为二维格式,使2D卷积神经网络能够捕捉局部与全局空间相关性。
  • 对原始数据应用分位数标准化,以减少分布偏移并提升模型泛化能力。
  • 使用类别加权的交叉熵损失进行训练以应对类别不平衡问题,并采用早停法防止过拟合。
  • 确定0.27为F1分数最优阈值,0.50用于混淆矩阵中的对比分析。

实验结果

研究问题

  • RQ1与传统CNN及混合模型相比,自注意力机制是否能提升窃电检测的AUC和F1分数?
  • RQ2在缺失值率较高的数据集中,引入二值掩码输入通道对模型性能有何影响?
  • RQ3分位数标准化在不平衡真实世界用电量数据上能在多大程度上提升模型泛化能力?
  • RQ4自注意力与空洞卷积的混合架构是否能在收敛速度和检测准确率方面优于标准CNN?
  • RQ5在类别不平衡条件下,平衡精确率与召回率的最优决策阈值是多少?

主要发现

  • 所提出的结合空洞卷积的混合多头自注意力模型实现了0.926的AUC,相比之前最先进基线模型提升了17%。
  • 在80%训练集划分下,该模型F1分数达到0.606,较最佳基线提升10个百分点,其中二值掩码对性能提升贡献显著。
  • 模型约在20个周期内收敛,而基线CNN模型需100个周期,训练时间减少近75%。
  • 在Tesla V100 GPU上推理时间为37秒,参数量仅5100万,表明其在真实场景部署中具备良好效率。
  • F1分数最优阈值确定为0.27,而0.50阈值导致精确率与召回率之间的权衡,如混淆矩阵所示。
  • 分位数标准化、二值掩码与注意力机制的结合,在所有训练划分下均一致提升了AUC、F1和MAP@100。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。