Skip to main content
QUICK REVIEW

[论文解读] Penalizing Localized Dirichlet Energies in Low Rank Tensor Products

Paris A. Karakasis, Nicholas D. Sidiropoulos|arXiv (Cornell University)|Jan 20, 2026
Tensor decomposition and applications被引用 0
一句话总结

论文分析低秩张量积B样条模型(TPBS),导出闭式Dirichlet能量,引入局部Dirichlet能量正则化,提出带有不完整数据的推断,并显示TPBS在过拟合情形下常优于神经网络,同时对正则化保持鲁棒性。

ABSTRACT

We study low-rank tensor-product B-spline (TPBS) models for regression tasks and investigate Dirichlet energy as a measure of smoothness. We show that TPBS models admit a closed-form expression for the Dirichlet energy, and reveal scenarios where perfect interpolation is possible with exponentially small Dirichlet energy. This renders global Dirichlet energy-based regularization ineffective. To address this limitation, we propose a novel regularization strategy based on local Dirichlet energies defined on small hypercubes centered at the training points. Leveraging pretrained TPBS models, we also introduce two estimators for inference from incomplete samples. Comparative experiments with neural networks demonstrate that TPBS models outperform neural networks in the overfitting regime for most datasets, and maintain competitive performance otherwise. Overall, TPBS models exhibit greater robustness to overfitting and consistently benefit from regularization, while neural networks are more sensitive to overfitting and less effective in leveraging regularization.

研究动机与目标

  • 为高容量模型在数据有限时提升泛化能力提供正则化动机。
  • 刻画低秩张量积模型的Dirichlet能量并揭示全局能量正则化的问题。
  • 提出以训练点为中心的局部Dirichlet能量(LDE)正则化,促进数据处的平滑性。
  • 开发利用TPBS结构的带不完整数据的推断策略。
  • 在回归与分类任务中将TPBS与神经网络进行经验比较,并评估过拟合行为。

提出的方法

  • 证明TPBS模型的Dirichlet能量 DE(g) 可以写成闭式表达式 DE(g)=s(g)^T Z(g) s(g)。
  • 定义以训练点为中心的局部Dirichlet能量 LDE_rho(g)= ∑_m ∫_{B_rho(x_m)} ||∇g(x)||_F^2 dx,并将其作为经验风险最小化中的正则项。
  • 使用一个在训练过程中递增的正则化日程 λ 的策略(λ_{t+1}=h λ_t),并基于验证性能来选择模型,包括考虑过拟合的选择。
  • 提供两种基于边缘化的不完整观测推断策略:(i) 对未观测特征进行简单边缘化(式(10)),以及 (ii) 使用低秩密度模型的边缘化估计量(式(12))。
  • 在不进行插补的情况下,通过利用TPBS分解实现高效边缘化与推断以容纳不完整数据。
Figure 1 : Double descent of test error with respect to network width for varying training set sizes on MNIST.
Figure 1 : Double descent of test error with respect to network width for varying training set sizes on MNIST.

实验结果

研究问题

  • RQ1低秩张量积模型的Dirichlet能量是否可以闭式计算?这对插值与正则化有何含义?
  • RQ2聚焦于训练点邻域的局部Dirichlet能量正则化是否能提升泛化性以及相对于全局Dirichlet能量对过拟合的鲁棒性?
  • RQ3TPBS模型如何在不完整数据下进行推断?这些方法在缺失数据下与神经网络相比有何差异?
  • RQ4与神经网络相比,TPBS模型在分类与回归任务中是否保持竞争性能并对过拟合具有鲁棒性?

主要发现

数据集NN(最佳验证)NN(过拟合)TPBS(最佳验证)TPBS(过拟合)
Ion0.949 ± 0.026 (NR)0.952 ± 0.014 (R)0.930 ± 0.029 (R)0.938 ± 0.010 (R)
BCW0.975 ± 0.007 (NR)0.958 ± 0.012 (NR)0.965 ± 0.014 (R)0.965 ± 0.014 (R)
Diabetes0.101 ± 0.010 (R)0.223 ± 0.037 (R)0.134 ± 0.005 (R)0.173 ± 0.019 (R)
Yacht0.001 ± 0.000 (R)0.001 ± 0.000 (R)0.001 ± 0.000 (R)0.001 ± 0.000 (R)
Physico0.263 ± 0.010 (NR)0.533 ± 0.075 (NR)0.340 ± 0.012 (R)0.336 ± 0.013 (R)
Sarcos0.049 ± 0.001 (NR)0.060 ± 0.005 (NR)0.240 ± 0.042 (R)0.243 ± 0.046 (R)
  • TPBS模型的Dirichlet能量可以闭式计算,为 DE(g)=s(g)^T Z(g) s(g)。
  • 局部Dirichlet能量正则化(LDE_rho)聚焦于数据支撑区域,提升泛化,尤其在过拟合情形下效果显著。
  • 在六个数据集上,带LDE正则的TPBS常优于或媲美神经网络,且TPBS对过拟合的抵抗力更强,并且正则化带来一致的收益。
  • 在不完整数据情景下,带局部正则化和基于边缘化的估计量的TPBS仍具竞争力,且在过拟合情况下往往优于神经网络基线。
  • 正则化对TPBS始终有益,而神经网络对过拟合更敏感,正则化带来的收益不如TPBS稳定。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。