Skip to main content
QUICK REVIEW

[论文解读] Orthogonal Random Features

Felix X. Yu, Ananda Theertha Suresh|arXiv (Cornell University)|Oct 28, 2016
Generative Adversarial Networks and Image Synthesis被引用 104
一句话总结

本论文表明,将随机高斯矩阵替换为正交(和结构化)矩阵在随机傅里叶特征中可降低高斯核估计误差,并引入结构化正交随机特征(SORF),以更快的计算速度实现可比的精度。

ABSTRACT

We present an intriguing discovery related to Random Fourier Features: in Gaussian kernel approximation, replacing the random Gaussian matrix by a properly scaled random orthogonal matrix significantly decreases kernel approximation error. We call this technique Orthogonal Random Features (ORF), and provide theoretical and empirical justification for this behavior. Motivated by this discovery, we further propose Structured Orthogonal Random Features (SORF), which uses a class of structured discrete orthogonal matrices to speed up the computation. The method reduces the time cost from $\mathcal{O}(d^2)$ to $\mathcal{O}(d \log d)$, where $d$ is the data dimensionality, with almost no compromise in kernel approximation quality compared to ORF. Experiments on several datasets verify the effectiveness of ORF and SORF over the existing methods. We also provide discussions on using the same type of discrete orthogonal structure for a broader range of applications.

研究动机与目标

  • 通过随机傅里叶特征来动机化并分析高斯核的核近似。
  • 证明投影矩阵的正交性可降低核估计误差。
  • 引入结构化正交随机特征(SORF),将计算从 O(d^2) 降到 O(d log d)。
  • 为正交与结构化投影提供理论依据,并在不同数据集上进行实证验证。

提出的方法

  • 通过将高斯随机矩阵 G 替换为 S Q 来形成 ORF,其中 Q 是随机正交矩阵,S 是对角缩放以匹配行范数。
  • 证明 ORF 是高斯核的无偏估计量,并分析其与标准 RFF 相比的方差下降。
  • 引入简化变体 ORF′,令 W_ORF′ = sqrt(d)/σ Q,并推导偏差/方差保障。
  • 提出 SORF 作为 W_SORF = (sqrt(d)/σ) H D1 H D2 H D3,其中 D_i 为随机对角符号矩阵,H 为 Walsh–Hadamard 矩阵,从而实现 O(D log d) 的计算并在核质量上接近等效。
  • 讨论 Hadamard-对角结构在核近似之外的一般适用性。

实验结果

研究问题

  • RQ1在随机投影矩阵上强制正交是否能提升高斯核近似相对于标准随机傅里叶特征?
  • RQ2结构化正交变换(SORF)是否能在显著降低计算成本的同时提供相似的核质量?
  • RQ3相对于 RFF,在不同数据维度与样本量下,ORF 与 SORF 的偏差和方差有何影响?
  • RQ4所提出的结构是否可推广到其他核类型及核近似以外的应用?

主要发现

数据集D=2dD=4dD=6dD=8dD=10d精确
letter (d=16)76.44 b1 1.0481.61 b1 0.4685.46 b1 0.5686.58 b1 0.9987.84 b1 0.5990.10
forest (d=64)77.61 b1 0.2378.92 b1 0.3079.29 b1 0.2479.57 b1 0.2179.85 b1 0.1080.43
usps (d=256)94.27 b1 0.3894.98 b1 0.1095.43 b1 0.2295.66 b1 0.2595.71 b1 0.1895.57
cifar (d=512)73.19 b1 0.2375.06 b1 0.3375.85 b1 0.3076.28 b1 0.3076.54 b1 0.3178.71
mnist (d=1024)94.83 b1 0.1395.48 b1 0.1095.85 b1 0.0796.02 b1 0.0695.98 b1 0.0597.14
gisette (d=4096)97.68 b1 0.2897.74 b1 0.1197.66 b1 0.2597.70 b1 0.1697.74 b1 0.0597.60
  • ORF 提供了对高斯核的无偏估计量,且在方差方面低于 RFF,特别是对于较小的 z = ||x−y||/σ。
  • SORF 实现了与 ORF 千里之差几乎相同的核近似质量,同时将时间降至 O(D log d),并实现了最小的额外内存开销。
  • 在六个数据集上,ORF 与 SORF 在固定 D 的情况下的核均方误差优于 RFF,且 SORF 的表现与 ORF 相当。
  • 实证结果显示 ORF/SORF 在 SVM 设置中提供具有竞争力甚至优于 RFF 的分类准确性,同时在 gisette 等数据集上实现显著加速(如高达 10 倍)。
  • ORF′ 的偏差在大维度下较小,其方差与 ORF 的变化趋势相近,支持简化变体的可行性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。