[论文解读] Robust machine learning by median-of-means : theory and practice
本文提出了一种用于鲁棒机器学习的中位数-均值(MOM)估计器,在最小微弱假设下,即使数据被污染,也能实现最优收敛速率。该方法将标准的经验风险最小化替换为基于MOM的估计,提供了理论保证、计算效率,并引入了一种新的非渐近崩溃数,用于以异常值和收敛速率来量化鲁棒性。
We introduce new estimators for robust machine learning based on median-of-means (MOM) estimators of the mean of real valued random variables. These estimators achieve optimal rates of convergence under minimal assumptions on the dataset. The dataset may also have been corrupted by outliers on which no assumption is granted. We also analyze these new estimators with standard tools from robust statistics. In particular, we revisit the concept of breakdown point. We modify the original definition by studying the number of outliers that a dataset can contain without deteriorating the estimation properties of a given estimator. This new notion of breakdown number, that takes into account the statistical performances of the estimators, is non-asymptotic in nature and adapted for machine learning purposes. We proved that the breakdown number of our estimator is of the order of (number of observations)*(rate of convergence). For instance, the breakdown number of our estimators for the problem of estimation of a d-dimensional vector with a noise variance sigma^2 is sigma^2d and it becomes sigma^2 s log(d/s) when this vector has only s non-zero component. Beyond this breakdown point, we proved that the rate of convergence achieved by our estimator is (number of outliers) divided by (number of observation). Besides these theoretical guarantees, the major improvement brought by these new estimators is that they are easily computable in practice. In fact, basically any algorithm used to approximate the standard Empirical Risk Minimizer (or its regularized versions) has a robust version approximating our estimators. As a proof of concept, we study many algorithms for the classical LASSO estimator. A byproduct of the MOM algorithms is a measure of depth of data that can be used to detect outliers.
研究动机与目标
- 开发在最小微弱假设下(包括重尾或被污染数据)仍能保持最优收敛速率的鲁棒机器学习估计器。
- 通过引入一种非渐近崩溃数,重新定义机器学习中的鲁棒性,将统计性能与对异常值的容忍度联系起来。
- 提供一种计算高效的替代方案,以取代标准的经验风险最小化器,尤其适用于大规模和分布式数据集。
- 使异常值检测成为估计过程的副产品,同时解决鲁棒估计与异常检测问题。
提出的方法
- 提出中位数-均值(MOM)估计器作为标准经验风险最小化(ERM)的鲁棒替代方案,将基于均值的估计替换为局部均值的中位数。
- 将数据集随机划分为K个块,在每个块内计算局部经验均值,并取这些块均值的中位数作为最终估计器。
- 采用数据依赖的块选择规则,自适应地选择K,以确保鲁棒性和最优收敛速率。
- 将MOM框架应用于LASSO等经典算法,构建一种鲁棒的MOM-LASSO变体,其速度更快、内存效率更高。
- 通过引入“崩溃数”重新审视崩溃点概念——即估计器在收敛速率开始退化前可容忍的最大异常值数量。
- 利用集中不等式和经验过程理论,在弱矩假设下推导出非渐近风险界。
实验结果
研究问题
- RQ1在数据受异常值污染或呈现重尾分布的情况下,MOM估计器是否仍能在最小微弱假设下实现最优收敛速率?
- RQ2如何以一种非渐近、以性能为导向的方式量化鲁棒性,而非依赖经典的渐近崩溃点?
- RQ3鲁棒估计器是否在计算上高效且可扩展至大规模数据集,特别是在分布式环境中?
- RQ4MOM框架在标准机器学习算法(如LASSO)上的适用程度如何?其在实践中能带来哪些改进?
- RQ5MOM估计过程本身是否能提供一种数据深度度量,用于异常值检测?
主要发现
- MOM估计器的崩溃数为N × rN量级,其中rN为收敛速率,意味着在d维估计中可容忍最多σ²d个异常值。
- 对于具有s个非零分量的稀疏向量,崩溃数为σ²s log(ed/s),反映出在稀疏性下鲁棒性的提升。
- 当异常值数量低于崩溃数时,估计器可实现最优收敛速率rN ∼ K/N。
- 若异常值数量超过崩溃数,估计误差将随异常值比例线性增长。
- MOM-LASSO版本比原始版本更快,内存占用更少,并且自然地提供用于异常值检测的数据深度度量。
- 理论保证在弱假设下成立:仅需信息数据与真实分布之间满足L2矩等价性,无需子高斯性或独立性假设。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。