[论文解读] A SISA-based Machine Unlearning Framework for Power Transformer Inter-Turn Short-Circuit Fault Localization
基于 SISA 的机器学习“忘记化”方法在变压器 ITSCF 故障定位中实现局部化并通过仅对受影响的分片进行再训练来减少再训练时间,同时保持接近全量再训练的准确性。
In practical data-driven applications on electrical equipment fault diagnosis, training data can be poisoned by sensor failures, which can severely degrade the performance of machine learning (ML) models. However, once the ML model has been trained, removing the influence of such harmful data is challenging, as full retraining is both computationally intensive and time-consuming. To address this challenge, this paper proposes a SISA (Sharded, Isolated, Sliced, and Aggregated)-based machine unlearning (MU) framework for power transformer inter-turn short-circuit fault (ITSCF) localization. The SISA method partitions the training data into shards and slices, ensuring that the influence of each data point is isolated within specific constituent models through independent training. When poisoned data are detected, only the affected shards are retrained, avoiding retraining the entire model from scratch. Experiments on simulated ITSCF conditions demonstrate that the proposed framework achieves almost identical diagnostic accuracy to full retraining, while reducing retraining time significantly.
研究动机与目标
- 在传感器故障可能污染训练数据时,推动鲁棒的 ITSCF 定位。
- 开发基于 SISA 的 MU 框架以隔离并消除被污染数据的影响。
- 在模拟 EMI 污染的 ITSCF 数据上,与全量再训练比较评估准确性和计算效率。
提出的方法
- 采用 LSTM 作为 ITSCF 定位六个故障标签(HA、HB、HC、LA、LB、LC)的基线模型。
- 将训练数据划分为 S 个分片并进一步划分为 R 个切片,以对每个分片/切片的数据影响进行本地化。
- 为每个分片训练独立子模型,并通过 softmax 概率平均策略聚合输出。
- 使用基于 SISA 的“忘记化”仅从受损切片开始对受污染的分片重新训练,避免全量再训练。
- 模拟 EMI 传感器故障污染 ITSCF 数据,并评估准确性和再训练时间的恢复情况。
- 使用 PyTorch 基于 LSTM 架构的性能评估,采用准确性和计算时间指标。
实验结果
研究问题
- RQ1在 ITSCF 定位中, EMI 引起的数据污染后,SISA 基于“忘记化”的方法是否能恢复诊断准确性?
- RQ2分片数量如何影响 SISA MU 框架中的准确性和再训练时间?
- RQ3是否可以在不牺牲分类性能的前提下实现显著的训练时间加速?
主要发现
- SISA“忘记化”在去除污染数据后将准确性恢复到接近全量再训练的水平。
- 增加分片数量会带来时间上的减少(例如两分片实现约 2x,四分片可达约 4x),但当每个分片的数据多样性过于受限时可能降低准确性。
- 非 SISA 的全量再训练作为参考,其训练时间较长,而 SISA“忘记化”能够实现显著的加速。
- 混淆矩阵表明在单一及多点污染的 ITSCF 条件下,准确性得到恢复,LV 端相位在数据被污染时易产生更多错分类。
- 总体而言,基于 SISA 的 MU 能在显著缩短再训练时间的同时维持令人满意的诊断准确性,与全量再训练相比具有明显优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。