Skip to main content
QUICK REVIEW

[论文解读] But How Does It Work in Theory? Linear SVM with Random Features

Yitong Sun, Anna C. Gilbert|arXiv (Cornell University)|Sep 12, 2018
Face and Expression Recognition被引用 35
一句话总结

本文在低噪声条件下,首次建立了使用优化特征映射的随机特征支持向量机(RFSVM)的理论快速学习速率。证明了RFSVM在核谱呈多项式衰减时,仅使用$\tilde{O}(m^{2/(2+c_2)})$个特征即可实现快于$O(1/\sqrt{m})$的收敛速率——具体为$\tilde{O}(m^{-c_2/(1+c_2)})$;在核谱呈次指数衰减时,仅需$\tilde{O}(\ln^d m)$个特征,从而证明了该方法的计算效率。

ABSTRACT

We prove that, under low noise assumptions, the support vector machine with $N\ll m$ random features (RFSVM) can achieve the learning rate faster than $O(1/\sqrt{m})$ on a training set with $m$ samples when an optimized feature map is used. Our work extends the previous fast rate analysis of random features method from least square loss to 0-1 loss. We also show that the reweighted feature selection method, which approximates the optimized feature map, helps improve the performance of RFSVM in experiments on a synthetic data set.

研究动机与目标

  • 为弥合RFSVM泛化性能,特别是其学习速率的理论空白,此前其速率仅被界定为$O(1/\sqrt{m})$。
  • 将快速速率分析从最小二乘法扩展到分类中的0-1损失,尤其在低噪声条件下。
  • 通过证明使用优化特征映射时,远少于样本数量的特征即可实现快速收敛,从而证明RFSVM的计算优势。
  • 为重加权特征选择作为一种优于均匀采样的实用改进方法提供理论支持。

提出的方法

  • 在正则化经验风险最小化框架下,采用0-1损失代理进行理论分析。
  • 论文假设存在一个优化的特征映射(假设2),以最小化核函数的近似误差。
  • 利用Massart的低噪声条件及核特征值的多项式衰减($\lambda_i = O(i^{-c_2})$)推导快速学习速率。
  • 分析中使用了集中不等式,并通过控制随机特征的杠杆值(leverage scores)来约束过剩风险。
  • 提出了一种重加权特征选择方法,以近似优化的特征映射,从而在实践中提升泛化性能。
  • 理论边界通过覆盖数、Rademacher复杂度与谱衰减假设的结合推导得出。

实验结果

研究问题

  • RQ1在低噪声条件下,RFSVM能否实现快于$O(1/\sqrt{m})$的学习速率?
  • RQ2当使用优化特征映射时,RFSVM实现快速速率所需的最少随机特征数量是多少?
  • RQ3核算子的谱衰减如何影响RFSVM的泛化误差?
  • RQ4与均匀采样相比,重加权特征选择能否提升RFSVM的性能?
  • RQ5当贝叶斯分类器不属于再生核希尔伯特空间(RKHS)时,理论快速速率是否仍然成立?

主要发现

  • 在Massart低噪声条件及谱衰减$\lambda_i = O(i^{-c_2})$下,使用优化特征的RFSVM可实现$\tilde{O}(m^{-c_2/(1+c_2)})$的学习速率,且仅需$\tilde{O}(m^{2/(2+c_2)})$个特征。
  • 对于次指数谱衰减,学习速率可进一步提升至$\tilde{O}(1/m)$,且仅需$\tilde{O}(\ln^d m)$个特征。
  • 当贝叶斯分类器满足分离条件(类间具有正距离)时,使用优化特征的RFSVM可实现$\tilde{O}(1/m)$速率,且仅需$\tilde{O}(\ln^{2d} m)$个特征。
  • 理论分析表明,训练前对特征进行重加权可提升性能,该结论在合成数据上得到了实验验证。
  • 若无优化特征,最佳可实现的速率为$O(m^{-1/3})$,且仅需$\tilde{O}(m^{2/3})$个特征,表明其与快速速率区域之间存在差距。
  • 结果在实践中证明了RFSVM的计算效率,尤其在结合特征重加权时更为显著。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。