Skip to main content
QUICK REVIEW

[论文解读] Sever: A Robust Meta-Algorithm for Stochastic Optimization

Ilias Diakonikolas, Gautam Kamath|arXiv (Cornell University)|Mar 7, 2018
Machine Learning and Algorithms参考文献 41被引用 67
一句话总结

Sever 是一个健壮的元算法,当包裹在任何基学习器上时,利用梯度数据的一个顶层奇异向量来检测并移除异常值,具备强理论和可扩展性,在垃圾邮件与药物设计任务上得到验证。

ABSTRACT

In high dimensions, most machine learning methods are brittle to even a small fraction of structured outliers. To address this, we introduce a new meta-algorithm that can take in a base learner such as least squares or stochastic gradient descent, and harden the learner to be resistant to outliers. Our method, Sever, possesses strong theoretical guarantees yet is also highly scalable -- beyond running the base learner itself, it only requires computing the top singular vector of a certain $n imes d$ matrix. We apply Sever on a drug design dataset and a spam classification dataset, and find that in both cases it has substantially greater robustness than several baselines. On the spam dataset, with $1\%$ corruptions, we achieved $7.4\%$ test error, compared to $13.4\%-20.5\%$ for the baselines, and $3\%$ error on the uncorrupted dataset. Similarly, on the drug design dataset, with $10\%$ corruptions, we achieved $1.42$ mean-squared error test error, compared to $1.51$-$2.33$ for the baselines, and $1.23$ error on the uncorrupted dataset.

研究动机与目标

  • 解决随机优化中对任意高维离群值的鲁棒性问题。
  • 提供一个通用、可扩展的框架,适用于回归、分类和非凸模型。
  • 提供不依赖于问题维度的理论保证。
  • 在实际数据集(邮箱垃圾邮件与药物设计)上证明实际效果。

提出的方法

  • 在可能被污染的数据集上运行一个基学习器以获得参数 w。
  • 在 w 处计算每个数据点的梯度并构造中心化梯度矩阵 G。
  • 计算 G 的最大奇异向量 v,以捕捉主导的梯度方向。
  • 将离群分数 τ_i 定义为每个中心化梯度在 v 上的投影平方。
  • 过滤掉高分点并重新运行学习过程;迭代直到不再移除点。
  • 在温和条件下提供理论保证,Sever 能达到真实目标的 gamma-近似临界点;并给出接近最优的样本复杂度和不依赖于维度的鲁棒性。

实验结果

研究问题

  • RQ1在存在 ε 分数任意离群值的情况下,Sever 是否能为随机优化提供鲁棒性保证?
  • RQ2在污染情形下,Sever 对回归和分类等常见学习任务的表现如何?
  • RQ3Sever 是否提供维度无关的误差保证并在真实数据上具备实际可扩展性?

主要发现

  • 在温和的厚尾假设下,Sever 实现对任意离群值的鲁棒性,并具有维度无关的误差项(定理2.1)。
  • 在 Enron 垃圾邮件数据集上,污染率为 1% 时,Sever 的测试误差为 7.4%,而基线为 13.4–20.5%(无污染时为 3%).
  • 在药物设计数据集上,污染率为 10% 时,Sever 的测试均方误差为 1.42;基线为 1.51–2.33(无污染数据为 1.23)。
  • 该方法在实践上可扩展,只需计算 n×d 梯度矩阵的顶部奇异向量并进行简单的筛选步骤。
  • Sever 在回归和分类任务的实验中优于若干自然基线离群检测器。
  • 本文在 ε-污染下为广义线性模型提供了近最优样本复杂度的具体应用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。