[论文解读] Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains
本文表明,将傅里叶特征映射应用于输入坐标,可以通过将神经切线核转换为可调的平稳核,在低维设置中使多层感知机(MLP)学习高频函数,从而在多种视觉/图形任务中提升性能。
We show that passing input points through a simple Fourier feature mapping enables a multilayer perceptron (MLP) to learn high-frequency functions in low-dimensional problem domains. These results shed light on recent advances in computer vision and graphics that achieve state-of-the-art results by using MLPs to represent complex 3D objects and scenes. Using tools from the neural tangent kernel (NTK) literature, we show that a standard MLP fails to learn high frequencies both in theory and in practice. To overcome this spectral bias, we use a Fourier feature mapping to transform the effective NTK into a stationary kernel with a tunable bandwidth. We suggest an approach for selecting problem-specific Fourier features that greatly improves the performance of MLPs for low-dimensional regression tasks relevant to the computer vision and graphics communities.
研究动机与目标
- 为低维视觉/图形任务中的基于坐标的 MLP 提出动机并分析谱偏差。
- 提出傅里叶特征映射,将 NTK 转换为可调的平稳核。
- 在二维/三维回归任务和视图合成上展示经验性能提升。
- 提供在特定问题中选择傅里叶特征的指南,以提升高频内容的学习能力。
提出的方法
- 使用傅里叶特征映射 gamma(v) 将输入坐标嵌入,其中包含具有频率 b_j 和尺度 a_j 的正弦/余弦分量。
- 分析 gamma 如何将 NTK 转换为平稳核 k_gamma,以及复合核 h_NTK ◦ h_gamma 如何影响学习动力学。
- 使用各向同性频率尺度的随机傅里叶特征(RFF)来调节核带宽并减轻谱偏差。
- 在直接和间接监督下,在低维回归任务(2D 图像、3D 形状、CT/MRI、类似 NeRF 的视图合成)上训练基于坐标的 MLP。
- 比较映射包括 No mapping、Basic、Positional encoding、Gaussian RFF,以及一个简单的 on-axis 基线,以评估在各任务上的性能。
实验结果
研究问题
- RQ1傅里叶特征映射是否能够缓解用于视觉/图形任务的低维回归中标准 MLP 的谱偏差?
- RQ2傅里叶特征的频带宽和取样策略如何影响 NTK 谱、收敛速度和泛化?
- RQ3在高维问题中,经过调优尺度的随机傅里叶特征是否可以达到或超越密集傅里叶特征集?
- RQ4在准确性和收敛性方面,哪些任务(2D/3D、直接/间接监督)最受益于傅里叶特征嵌入?
- RQ5可以为给定任务推导出哪些可操作的选择傅里叶特征参数的指南?
主要发现
- 傅里叶特征映射将 NTK 转换为平稳核并允许调节其带宽,从而学习比标准 MLP 更高的频率。
- 在恰当选择尺度的随机傅里叶特征在各种低维回归任务中显著提升了性能。
- 傅里叶特征谱的宽度(频率采样的尺度)对性能影响大于分布形状的精确程度。
- 对傅里叶特征的稀疏随机采样可以达到密集特征集的性能,为更高维度提供一种可扩展的方法。
- 在所报告的实验中,高斯随机傅里叶特征始终优于其他特征映射。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。