QUICK REVIEW

[论文解读] Is feature selection secure against training data poisoning?

Xiao Huang, Battista Biggio|arXiv (Cornell University)|Apr 21, 2018

Network Security and Intrusion Detection参考文献 40被引用 287

一句话总结

本文提供一个框架，在投毒攻击下评估嵌入式特征选择方法（LASSO、岭回归、弹性网）的鲁棒性，并显示在<5% 的被污染数据下，LASSO 可以被驱动到几乎随机的特征选择，从而显著降低准确性。

ABSTRACT

Learning in adversarial settings is becoming an important task for application domains where attackers may inject malicious data into the training set to subvert normal operation of data-driven technologies. Feature selection has been widely used in machine learning for security applications to improve generalization and computational efficiency, although it is not clear whether its use may be beneficial or even counterproductive when training data are poisoned by intelligent attackers. In this work, we shed light on this issue by providing a framework to investigate the robustness of popular feature selection methods, including LASSO, ridge regression and the elastic net. Our results on malware detection show that feature selection methods can be significantly compromised under attack (we can reduce LASSO to almost random choices of feature sets by careful insertion of less than 5% poisoned training samples), highlighting the need for specific countermeasures.

研究动机与目标

在安全关键任务中激励研究特征选择在对抗性数据操控下的鲁棒性。
建立一个正式框架，用以建模攻击者在污染特征选择过程中的目标、知识与能力。
分析对嵌入式特征选择方法（LASSO、ridge、elastic net）的投毒攻击，并量化对特征选择与分类的影响。
通过一个恶意软件检测案例研究（PDF 恶意软件）展示实际意义并讨论对策。

提出的方法

提出一个扩展先前安全评估到特征选择的新框架，定义攻击者的目标、知识与能力。
将特征选择建模为在正则化下最小化损失（方程2），通过权重 w 来选择子集。
将投毒形式化为用攻击点来扩充训练集，并优化目标函数（方程3）以最大化误差。
通过对学习解进行微分并结合基于 KKT 的调整（方程7）来推导投毒攻击的梯度。
给出一个迭代投毒算法（Algorithm 1），在保持可行域的同时调整多个攻击点。
在PDF恶意软件检测的背景下应用代理数据（LK）设置并测试 PK/LK 等价性。

实验结果

研究问题

RQ1嵌入式特征选择方法（LASSO、ridge、elastic net）对训练数据投毒有多脆弱？
RQ2投毒对特征选择稳定性和最终分类器准确性的影响是什么？
RQ3攻击者的知识水平（完美与有限）是否会显著改变投毒对特征选择的攻击效果？
RQ4在高维安全任务中，哪种正则化方法在投毒下表现出更强的鲁棒性？
RQ5投毒如何影响按稳定性指标排序的前几位特征的稳定性？

主要发现

将训练数据投毒至多达 20% 时，LASSO 的错误率从 2% 上升到约 20%。
在投毒情况下，elastic net 与 ridge 的鲁棒性略优于 LASSO。
投毒会迅速降低所选特征的稳定性，即使在低水平投毒时，LASSO 与 elastic net 的稳定性指数也趋近于零。
在攻击下，特征选择几乎可能变得随机，允许攻击者控制被选中的特征。
在分析的三种方法中，ridge 回归显示出更高的鲁棒性。
PK 与 LK 设置的结果相似，表明代理数据可以在无需完全数据访问的情况下实现有效投毒。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。