QUICK REVIEW

[论文解读] On the Error of Random Fourier Features

Danica J. Sutherland, Jeff Schneider|arXiv (Cornell University)|Jun 9, 2015

Gaussian Processes and Bayesian Inference参考文献 24被引用 37

一句话总结

本文对随机傅里叶特征中的近似误差提供了严格的分析，改进了统一误差界，并揭示了更广泛使用的 $\tilde{z}$ 嵌入（含正弦与余弦对）在高斯核下相比 $\breve{z}$（含相位偏移余弦）具有严格更低的方差。作者推导出更紧致的集中性界，建立了 $O(1/\sqrt{D})$ 的收敛速率，并通过实证验证表明，$\tilde{z}$ 在实际中能提供更优的近似质量与更快的收敛速度。

ABSTRACT

Kernel methods give powerful, flexible, and theoretically grounded approaches to solving many problems in machine learning. The standard approach, however, requires pairwise evaluations of a kernel function, which can lead to scalability issues for very large datasets. Rahimi and Recht (2007) suggested a popular approach to handling this problem, known as random Fourier features. The quality of this approximation, however, is not well understood. We improve the uniform error bound of that paper, as well as giving novel understandings of the embedding's variance, approximation error, and use in some machine learning methods. We also point out that surprisingly, of the two main variants of those features, the more widely used is strictly higher-variance for the Gaussian kernel and has worse bounds.

研究动机与目标

为平移不变核的随机傅里叶特征近似误差提供全面的理论分析。
从方差、近似误差和收敛特性角度，比较随机傅里叶特征的两种主要变体——$\tilde{z}$ 和 $\breve{z}$。
改进 Rahimi 与 Recht（2007）提出的统一误差界，使常数更紧致，并提供新的指数集中性界。
评估近似误差对下游机器学习方法（包括核岭回归和最大均值差异（MMD）估计）的影响。
通过实证验证理论发现，并证明尽管使用较少，$\tilde{z}$ 在高斯核下仍表现更优。

提出的方法

利用博赫纳定理和核傅里叶变换的特征函数，推导随机傅里叶特征近似的方差。
通过麦克迪阿米尔不等式建立统一误差界，常数比以往工作更紧致，并证明最大误差围绕其均值的指数集中性。
分析近似误差的 $L_2$ 收敛性，表明对于高斯核，$\tilde{z}$ 的期望误差更低。
使用数值积分评估期望最大误差的理论界，并与实证结果进行比较。
在核岭回归和 MMD 估计上进行实证评估，比较不同嵌入维度 $D$ 下 $\tilde{z}$ 与 $\breve{z}$ 的性能。
将麦克迪阿米尔界应用于均方误差，并将误差的实证衰减速率与理论预测进行比较。

实验结果

研究问题

RQ1在高斯核下，两种随机傅里叶特征变体——$\tilde{z}$ 或 $\breve{z}$——中，哪一种方差更低？
RQ2能否收紧随机傅里叶特征的统一误差界？这对泛化能力有何影响？
RQ3随机傅里叶特征的近似误差如何影响下游学习方法（如核岭回归和 MMD 估计）的性能？
RQ4期望最大误差的真实收敛速率是多少？与理论界相比如何？
RQ5嵌入变体的选择是否影响误差的实证衰减速率？如果是，哪一种收敛更快？

主要发现

对于高斯核，$\tilde{z}$ 嵌入的方差严格低于 $\breve{z}$，因此在近似质量方面表现更优。
本文收紧了 Rahimi 与 Recht（2007）提出的统一误差界，改进了常数，并为最大误差提供了指数集中性界。
$\tilde{z}$ 的期望 $L_2$ 误差为 $O(1/D)$，而 $\breve{z}$ 的期望 $L_2$ 误差也为 $O(1/D)$，但常数更大，从而证实了 $\tilde{z}$ 的优越性。
实证评估表明，期望最大误差以 $O(1/\sqrt{D})$ 速率衰减，且两种嵌入的衰减斜率均与理论预测一致。
MMD 估计中的平均绝对误差以 $O(1/\sqrt{D})$ 速率衰减，实证指数接近 $-0.5$，证实了理论收敛速率。
麦克迪阿米尔界高估了衰减速率的乘法常数，但实证衰减速率与理论预测的 $O(1/\sqrt{D})$ 标度一致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。