Skip to main content
QUICK REVIEW

[论文解读] Compact Circulant Layers with Spectral Priors

Joseph Margaryan, Thomas Hamelryck|arXiv (Cornell University)|Feb 25, 2026
Advanced Neural Network Applications被引用 0
一句话总结

本文提出了通过 FFT 的实部/半谱参数化的紧凑谱圆周和 BCCB 神经网络层,实现精准谱范数、简单的谱先验,以及用于不确定性感知、内存高效模型的高效变分推断。它在 MNIST/Fashion-MNIST、CIFAR-10 及 ViT 风格架构上以显著更少的参数实现具有竞争力的性能,同时提供基于 Lipschitz 的诊断。

ABSTRACT

Critical applications in areas such as medicine, robotics and autonomous systems require compact (i.e., memory efficient), uncertainty-aware neural networks suitable for edge and other resource-constrained deployments. We study compact spectral circulant and block-circulant-with-circulant-blocks (BCCB) layers: FFT-diagonalizable circular convolutions whose weights live directly in the real FFT (RFFT) half (1D) or half-plane (2D). Parameterizing filters in the frequency domain lets us impose simple spectral structure, perform structured variational inference in a low-dimensional weight space, and calculate exact layer spectral norms, enabling inexpensive global Lipschitz bounds and margin-based robustness diagnostics. By placing independent complex Gaussians on the Hermitian support we obtain a discrete instance of the spectral representation of stationary kernels, inducing an exact stationary Gaussian-process prior over filters on the discrete circle/torus. We exploit this to define a practical spectral prior and a Hermitian-aware low-rank-plus-diagonal variational posterior in real coordinates. Empirically, spectral circulant/BCCB layers are effective compact building blocks in both (variational) Bayesian and point estimate regimes: compact Bayesian neural networks on MNIST->Fashion-MNIST, variational heads on frozen CIFAR-10 features, and deterministic ViT projections on CIFAR-10/Tiny ImageNet; spectral layers match strong baselines while using substantially fewer parameters and with tighter Lipschitz certificates.

研究动机与目标

  • 开发通过非冗余实部 FFT 系数参数化的一维圆周和二维块圆周对(BCCB)层;
  • 在 RFFT 谱上引入离散谱 GP 先验,以在离散滤波器上诱导平稳的 GP 先验;
  • 提供 Hermitian 感知的低秩-对角变分后验,以实现闭式 KL 项的高效贝叶斯推断;
  • 推导这些谱层的精确层谱范数与 Lipschitz 证书,以支持诊断与鲁棒性分析;
  • 在标准基准测试中将紧凑谱层作为贝叶斯与确定性体系结构的即插即用替代方案进行评估。

提出的方法

  • 直接通过非冗余的 real-FFT(RFFT)系数参数化一维圆周和二维 BCCB 层;
  • 通过仅存储半谱并在前向传递中重构全谱来实现 Hermitian 对称性;
  • 在 RFFT 系数上定义对角的复高斯谱先验,以在离散滤波器上诱导平稳的 GP 先验;
  • 在有效的实坐标中发展 Hermitian 感知的低秩加对角变分后验,并给出闭式 KL 项;
  • 从频率响应计算精确的层谱范数,以获得低成本的 Lipschitz 边界与诊断;
  • 使用带限掩码和谱衰减来控制谱域中的模型容量。
Figure 1 : Predictive-entropy KDEs for MNIST (ID; blue ) versus Fashion-MNIST (OOD; orange ), computed from the SVI posterior predictive. Left: Spectral BCCB (ours). Right: Conv2D baseline. In each image, the left panel shows the full entropy range and the right panel shows the same zoom window $H\i
Figure 1 : Predictive-entropy KDEs for MNIST (ID; blue ) versus Fashion-MNIST (OOD; orange ), computed from the SVI posterior predictive. Left: Spectral BCCB (ours). Right: Conv2D baseline. In each image, the left panel shows the full entropy range and the right panel shows the same zoom window $H\i

实验结果

研究问题

  • RQ1谱圆周/BCCB 层是否能在显著减少参数的情况下达到或接近密集基线的性能?
  • RQ2离散谱 GP 先验如何影响紧凑层的不确定性量化、校准与鲁棒性?
  • RQ3精确的谱范数是否能在真实世界架构中实现实用的 Lipschitz 证书?
  • RQ4这些层是否能在冻结编码器的贝叶斯头和 ViT 风格投影中有效应用?
  • RQ5在 MNIST、Fashion-MNIST、CIFAR-10 和 Tiny ImageNet 上,ID 与 OOD 性能以及参数效率的经验权衡是什么?

主要发现

  • 谱圆周/BCCB 层在 MNIST→Fashion-MNIST 上以 7–72x 少于密集基线的参数实现具有竞争力的 ID 准确率与校准度。
  • 在 CIFAR-10 的冻结编码器实验中,谱层提供更紧的 Lipschitz 上界和更大的认证半径,相较于密集头。
  • 在 ViT 风格投影中,谱层提高了准确率和负对数似然(NLL),同时减少了投影层参数。
  • 对角谱先验在离散滤波器上诱导了一个精确的平稳高斯过程先验,且具有 Hermitian 感知的可解析 KL 项,可用于 SVI。
  • 该方法在幂等获取层谱范数和实际 Lipschitz 诊断方面几乎是免费的,因为可通过 FFT 对角化实现。
Figure 2 : Train and validation cross-entropy over epochs for dense vs spectral ViT on Tiny ImageNet. Vertical lines mark best-validation checkpoints.
Figure 2 : Train and validation cross-entropy over epochs for dense vs spectral ViT on Tiny ImageNet. Vertical lines mark best-validation checkpoints.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。