Skip to main content
QUICK REVIEW

[论文解读] L1 Regression with Lewis Weights Subsampling

Aditya Parulekar, Advait Parulekar|arXiv (Cornell University)|Jan 1, 2021
Machine Learning and Algorithms参考文献 14被引用 3
一句话总结

该论文提出了一种基于Lewis权重进行行采样的主动学习方法,用于ℓ1回归,证明了以替换方式根据Lewis权重采样 m = O(1/ε² d log d/εδ) 行,可高概率 1−δ 得到 (1+ε)-近似解。该方法实现了近乎最优的样本复杂度,且在δ依赖性方面相比ℓ2杠杆率方法具有指数级优势。

ABSTRACT

We consider the problem of finding an approximate solution to $\ell_1$ regression while only observing a small number of labels. Given an $n imes d$ unlabeled data matrix $X$, we must choose a small set of $m \ll n$ rows to observe the labels of, then output an estimate $\widehatβ$ whose error on the original problem is within a $1 + \varepsilon$ factor of optimal. We show that sampling from $X$ according to its Lewis weights and outputting the empirical minimizer succeeds with probability $1-δ$ for $m > O(\frac{1}{\varepsilon^2} d \log \frac{d}{\varepsilon δ})$. This is analogous to the performance of sampling according to leverage scores for $\ell_2$ regression, but with exponentially better dependence on $δ$. We also give a corresponding lower bound of $Ω(\frac{d}{\varepsilon^2} + (d + \frac{1}{\varepsilon^2}) \log\frac{1}δ)$.

研究动机与目标

  • 开发一种用于ℓ1回归的主动学习算法,以最小化标签查询次数,同时确保以高概率获得(1+ε)-近似解。
  • 通过聚焦于ℓ1损失而非ℓ2损失,解决回归中对异常值和重尾噪声的鲁棒性挑战。
  • 证明根据ℓ1 Lewis权重对行进行采样,可实现主动ℓ1回归的近乎最优样本复杂度。
  • 建立对所需查询次数的理论下界,证明所提方法的近乎最优性。

提出的方法

  • 使用Lewis权重作为设计矩阵X各行的重要性采样概率,以高效地子采样标签。
  • 采用非自适应的采样与重加权的随机化矩阵 S ∈ ℝm×n,其中每行以与Lewis权重 pi 成比例的概率被设置为 1/pi ei。
  • 在子采样数据上应用经验风险最小化:β̂ = argmin ∥SXβ − Sy∥₁。
  • 利用Lewis权重对ℓ1范数的子空间嵌入保证,确保对所有β都有 ∥SXβ∥₁ ≈ ∥Xβ∥₁。
  • 通过构造一个辅助矩阵 X′ 来控制Lewis权重,并应用[CP15]中的矩量界。
  • 采用Rademacher复杂度与矩量分析,控制经验目标函数与真实目标函数之间的偏差。

实验结果

研究问题

  • RQ1Lewis权重采样能否在使用亚线性数量标签的前提下,以高概率实现(1+ε)-近似ℓ1回归?
  • RQ2与ℓ2回归中杠杆率方法相比,Lewis权重采样在ℓ1回归中的样本复杂度在δ依赖性方面有何差异?
  • RQ3所提样本复杂度是否近乎最优?能否建立下界以确认其紧致性?
  • RQ4能否通过子采样与基于矩量的分析,克服ℓ1回归中缺乏闭式解的问题?
  • RQ5在主动ℓ1回归中,近似误差ε、置信度δ与样本大小m之间存在何种权衡?

主要发现

  • 所提方法以 m = O(1/ε² d log d/εδ) 次标签查询,高概率 1−δ 实现了(1+ε)-近似ℓ1回归。
  • 该样本复杂度在δ依赖性方面相比ℓ2杠杆率方法具有指数级优势,后者依赖于 O(1/ε² d log(1/δ))。
  • 建立了匹配的下界 Ω(d log(1/δ) + d/ε² + 1/ε² log(1/δ)),证明了上界近乎最优。
  • 该方法为非自适应方法,无需根据先前结果进行序列查询。
  • 分析可扩展至处理ℓ1回归中存在多个最小化器的情况,通过控制经验目标函数与真实目标函数之间的偏差。
  • 关键技术创新在于构造了一类矩阵,用于控制Lewis权重,并使得先前工作中的矩量界得以应用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。