Skip to main content
QUICK REVIEW

[论文解读] Efficient active learning of sparse halfspaces with arbitrary bounded noise

Chicheng Zhang, Jie Shen|arXiv (Cornell University)|Feb 12, 2020
Machine Learning and Algorithms被引用 5
一句话总结

本论文提出了一种在任意有界噪声下学习 $s$-稀疏半空间的多项式时间主动学习算法,其中标签被翻转的概率最多为 $\eta < \frac{1}{2}$。该算法实现了 $\tilde{O}\big(\frac{s}{(1-2\eta)^4} \cdot \mathrm{polylog}(d, \frac{1}{\epsilon})\big)$ 的标签复杂度,是首个在 $\frac{1}{1-2\eta}$ 上具有多项式依赖关系的高效方法,即使当 $\eta \to \frac{1}{2}$ 时也能保持标签效率。

ABSTRACT

We study active learning of homogeneous $s$-sparse halfspaces in $\mathbb{R}^d$ under the setting where the unlabeled data distribution is isotropic log-concave and each label is flipped with probability at most $\eta$ for a parameter $\eta \in \big[0, \frac12\big)$, known as the bounded noise. Even in the presence of mild label noise, i.e. $\eta$ is a small constant, this is a challenging problem and only recently have label complexity bounds of the form $ ilde{O}\big(s \cdot \mathrm{polylog}(d, \frac{1}{\epsilon})\big)$ been established in [Zhang, 2018] for computationally efficient algorithms. In contrast, under high levels of label noise, the label complexity bounds achieved by computationally efficient algorithms are much worse: the best known result of [Awasthi et al., 2016] provides a computationally efficient algorithm with label complexity $ ilde{O}\big((\frac{s \ln d}{\epsilon})^{2^{\mathrm{poly}(1/(1-2\eta))}} \big)$, which is label-efficient only when the noise rate $\eta$ is a fixed constant. In this work, we substantially improve on it by designing a polynomial time algorithm for active learning of $s$-sparse halfspaces, with a label complexity of $ ilde{O}\big(\frac{s}{(1-2\eta)^4} \mathrm{polylog} (d, \frac 1 \epsilon) \big)$. This is the first efficient algorithm with label complexity polynomial in $\frac{1}{1-2\eta}$ in this setting, which is label-efficient even for $\eta$ arbitrarily close to $\frac12$. Our active learning algorithm and its theoretical guarantees also immediately translate to new state-of-the-art label and sample complexity results for full-dimensional active and passive halfspace learning under arbitrary bounded noise. The key insight of our algorithm and analysis is a new interpretation of online learning regret inequalities, which may be of independent interest.

研究动机与目标

  • 设计一种在任意有界噪声下对 $s$-稀疏半空间进行计算高效的主动学习算法。
  • 实现即使在噪声率 $\eta$ 接近 $\frac{1}{2}$ 时仍保持高效的标签复杂度。
  • 改进先前的计算高效算法,这些算法的标签复杂度随 $\eta$ 呈指数级恶化。
  • 为有界噪声下的主动与被动半空间学习建立新的最优标签复杂度与样本复杂度边界。

提出的方法

  • 该算法利用在线学习后悔不等式的新型解释,以指导主动采样。
  • 其核心子程序在自适应查询最具信息量的未标记样本的同时,维持一个稀疏线性分类器。
  • 该方法结合了抗噪声估计技术,以处理最高达 $\eta < \frac{1}{2}$ 的标签翻转。
  • 它应用了一种过滤机制,以降低主动学习过程中的有效噪声水平。
  • 通过一种精细化的后悔分解分析,将稀疏性与噪声因素同时纳入考虑,从而界定了标签复杂度。
  • 该算法在多项式时间内运行,并实现了在 $\frac{1}{1-2\eta}$ 上的多项式标签复杂度。

实验结果

研究问题

  • RQ1我们能否设计一种计算高效的主动学习算法,用于在高噪声率下仍保持标签效率的稀疏半空间?
  • RQ2在任意有界噪声下,$s$-稀疏半空间学习可实现的最优标签复杂度是什么?
  • RQ3如何重新诠释在线学习后悔不等式,以在标签噪声环境下提升主动学习性能?
  • RQ4是否可以将标签复杂度设计为在 $\frac{1}{1-2\eta}$ 上为多项式而非指数形式,即使当 $\eta \to \frac{1}{2}$ 时也成立?
  • RQ5该算法对有界噪声下的被动半空间学习有何影响?

主要发现

  • 所提出的算法实现了 $\tilde{O}\big(\frac{s}{(1-2\eta)^4} \cdot \mathrm{polylog}(d, \frac{1}{\epsilon})\big)$ 的标签复杂度,该复杂度在 $\frac{1}{1-2\eta}$ 上为多项式。
  • 这是首个在任意有界噪声下对稀疏半空间实现此类标签复杂度的计算高效主动学习算法。
  • 与先前方法不同,该算法即使在噪声率 $\eta$ 任意接近 $\frac{1}{2}$ 时仍保持标签效率。
  • 基于在线学习后悔不等式的新解释所构建的理论框架,为实现更强的抗噪声学习奠定了基础。
  • 该结果立即为有界噪声下的主动与被动半空间学习提供了改进的标签复杂度与样本复杂度边界。
  • 该方法在此设定下建立了新的最优标签复杂度状态,显著优于以往方法,尤其在高噪声环境下。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。