[论文解读] The Power of Localization for Efficiently Learning Linear Separators with Noise
本文提出了一种基于定位的新型方法,用于在恶意和对抗性标签噪声下学习线性分类器,实现了对各向同性对数凹分布和均匀分布的最优 Ω(ǫ) 噪声容忍度的多项式时间算法。该方法结合了渐进式定位、缩放铰链损失最小化以及软异常值去除,首次实现了在噪声线性分类器上的多项式时间主动学习算法,其标签复杂度相比被动方法有指数级提升。
We introduce a new approach for designing computationally efficient and noise tolerant algorithms for learning linear separators. We consider the malicious noise model of Valiant [41, 32] and the adversarial label noise model of Kearns, Schapire, and Sellie [34]. For malicious noise, where the adversary can corrupt an <em>η</em> of fraction both the label part and the feature part, we provide a polynomial-time algorithm for learning linear separators in R<sup><em>d</em></sup> under the uniform distribution with nearly information-theoretically optimal noise tolerance of <em>η</em> = Ω(<em>ε</em>), improving on the Ω(&epsilon/d<sup>1/4</sup>) noise-tolerance of [31] and the Ω(ε<sup>2</sup>/log(d/ε) of [35]. For the <em>adversarial label noise</em>model, where the distribution over the feature vectors is unchanged, and the overall probability of a noisy label is constrained to be at most <em>η</em>, we give a polynomial-time algorithm for learning linear separators in R<sup><em>d</em></sup> under the uniform distribution that can also handle a noise rate of <em>η</em> = Ω(<em>ε</em>). This improves over the results of [31] which either required runtime super-exponential in 1/<em>ε</em> (ours is polynomial in 1/<em>ε</em>) or tolerated less noise. In the case that the distribution is isotropic log-concave, we present a polynomial-time algorithm for the malicious noise model that tolerates Ω(ε/log<sup>2</sup>(1/ε)) noise, and a polynomial-time algorithm for the adversarial label noise model that also handles Ω(ε/log<sup>2</sup>(1/ε)) noise. Both of these also improve on results from [35]. In particular, in the case of malicious noise, unlike previous results, our noise tolerance has no dependence on the dimension <em>d</em> of the space. Our algorithms are also efficient in the active learning setting, where learning algorithms only receive the classifications of examples when they ask for them. We show that, in this model, our algorithms achieve a label complexity whose dependence on the error parameter <em>ε</em> is polylogarithmic (and thus exponentially better than that of any passive algorithm). This provides the first polynomial time active learning algorithm for learning linear separators in the presence of malicious noise or adversarial label noise.
研究动机与目标
- 设计计算高效的机器学习算法,使其对恶意噪声(特征和标签的污染)以及对抗性标签噪声均具有鲁棒性。
- 提升在各向同性对数凹分布和均匀分布下线性分类器的噪声容忍保证。
- 开发首个在恶意或对抗性标签噪声下,针对线性分类器的多项式时间主动学习算法。
- 实现标签复杂度对误差参数 ǫ 的多对数依赖关系,相比被动学习方法具有指数级优势。
提出的方法
- 采用激进的定位策略,逐步缩小假设空间至基于先前数据具有高置信度的区域。
- 最小化一个逐步缩放的铰链损失函数,以在噪声条件下提升鲁棒性和收敛性。
- 实施一种新颖的局部化且软性的异常值去除程序,自适应地识别并降低噪声样本的权重,而无需硬性剔除。
- 利用分布特异性属性(例如各向同性对数凹性、单位球面上的均匀性),确保目标超平面很可能位于数据云附近,从而实现有效的定位。
- 设计递归式主动学习框架,仅从信息丰富的区域查询标签,从而降低标签复杂度。
- 利用集中不等式和局部区域中的 VC 类型泛化界,控制噪声条件下的误差和损失估计。
实验结果
研究问题
- RQ1我们能否为线性分类器设计多项式时间学习算法,在恶意和对抗性标签噪声模型下实现接近最优的噪声容忍度?
- RQ2定位技术如何被适配以在高维、噪声环境中提升噪声容忍度?
- RQ3能否在恶意噪声下实现高效且鲁棒的主动学习,使标签复杂度相比被动学习方法具有指数级优势?
- RQ4在各向同性对数凹分布和均匀分布下,线性分类器的噪声容忍度理论极限是什么?我们能否达到这一极限?
主要发现
- 所提出的算法在各向同性对数凹分布下对恶意噪声实现了 Ω(ǫ) 的噪声容忍度,与信息论下限相比仅差一个常数因子。
- 对于单位球面上的均匀分布,该算法可容忍 η = Ω(ǫ) 的恶意噪声,优于先前的 O(ǫ/d1/4) 和 O(ǫ²/log(d/ǫ)) 的界。
- 在对抗性标签噪声模型下,该算法在相同分布下实现了 η = Ω(ǫ) 的噪声容忍度,具有多项式时间复杂度和更高的鲁棒性。
- 主动学习变体实现了对 ǫ 的多对数依赖的标签复杂度,相比被动学习方法具有指数级改进。
- 该算法是首个在对抗性标签噪声下针对线性分类器的多项式时间主动学习方法,解决了文献中的一个开放问题。
- 理论分析证实,即使在高噪声水平下,只要底层分布满足温和的正则性条件,误差率仍能以高概率被控制在 ǫ 以内。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。