Skip to main content
QUICK REVIEW

[论文解读] Statistical Properties of the log-cosh Loss Function Used in Machine Learning

Resve Saleh, A. K. Ehsanes Saleh|arXiv (Cornell University)|Aug 9, 2022
Statistical Methods and Inference被引用 26
一句话总结

本文推导了对数log-cosh损失的统计性质,识别 Cosh 分布为潜在模型,并将其与正态分布和柯西分布进行比较;还展示了鲁棒性优势及在分位数回归中的应用。

ABSTRACT

This paper analyzes a popular loss function used in machine learning called the log-cosh loss function. A number of papers have been published using this loss function but, to date, no statistical analysis has been presented in the literature. In this paper, we present the distribution function from which the log-cosh loss arises. We compare it to a similar distribution, called the Cauchy distribution, and carry out various statistical procedures that characterize its properties. In particular, we examine its associated pdf, cdf, likelihood function and Fisher information. Side-by-side we consider the Cauchy and Cosh distributions as well as the MLE of the location parameter with asymptotic bias, asymptotic variance, and confidence intervals. We also provide a comparison of robust estimators from several other loss functions, including the Huber loss function and the rank dispersion function. Further, we examine the use of the log-cosh function for quantile regression. In particular, we identify a quantile distribution function from which a maximum likelihood estimator for quantile regression can be derived. Finally, we compare a quantile M-estimator based on log-cosh with robust monotonicity against another approach to quantile regression based on convolutional smoothing.

研究动机与目标

  • 从统计角度动机并证明研究 log-cosh 损失函数的合理性。
  • 推导 Cosh 分布及其对应 log-cosh 损失的极大似然估计(MLE)。
  • 分析 log-cosh MLE 的渐近偏误、方差及置信区间。
  • 将 log-cosh 与鲁棒替代方案(Huber、基于秩的方法)以及最小二乘估计(LSE)进行比较。
  • 展示使用连续的基于 log-cosh 的检验函数的分位数回归应用。

提出的方法

  • 将 log-cosh 损失定义为 rho_L(x, theta)=log(cosh(x - theta)).
  • 推导 Cosh 分布,其概率密度函数为 f(x; theta, sigma)=1/(pi sigma cosh((x-theta)/sigma)).
  • 通过解 sum_i tanh(x_i - theta)=0 来计算 MLE,并通过二阶导数 sech^2(x) 显示凸性。
  • 计算费舍尔信息 I(theta)=1/(2 sigma^2) 以及渐近方差 Var(hat{theta})=2 sigma^2/n。
  • 将渐近性质与正态分布和柯西分布进行比较,并通过直观分析将其与 L1/L2 损失联系起来。
  • 通过引入连续的基于 log-cosh 的检验函数和 SMRQ,将其扩展到分位数回归;包括推导其费舍尔信息以及如何使用自助法进行标准误估计。

实验结果

研究问题

  • RQ1log-cosh 损失源自的统计分布是什么,以及它与柯西分布的对比?
  • RQ2log-cosh MLE 对位置参数的渐近性质(偏倚、方差、置信区间)是什么?
  • RQ3在估计及标准误方面,log-cosh 相对于鲁棒替代方案(Huber、基于秩的方法)的表现如何?
  • RQ4如何在分位数回归中利用 log-cosh 以避免跨越问题,以及相应的 MLE 与分布是什么?
  • RQ5卷积平滑在解决分位数交叉与单调性方面与 SMRQ 的比较如何?

主要发现

  • log-cosh 损失对应具有 pdf 1/(pi sigma cosh((x-theta)/sigma)) 的 Cosh 分布。
  • theta 的 MLE 满足 sum_i tanh(x_i - theta)=0,且全局凸,渐近方差 Var(hat{theta}) = 2 sigma^2/n。
  • 渐近地,log-cosh 估计量无偏,其置信区间遵循标准的渐近正态理论,使用 I(theta)=1/(2 sigma^2) 的费舍尔信息。
  • Log-cosh 展现出与基于 L1 的方法相当的鲁棒性,同时提供连续的一阶和二阶导数;不像 L1 那样导数不连续,在某些情形下比 Huber 更平滑。
  • 在分位数回归中,连续的基于 log-cosh 的检验函数 rho_S(x, tau) = log(cosh(x)) + (tau - 1/2)x 产生一个平滑的 M-estimator,避免了传统检验函数的拐点问题。
  • 自举方法验证了渐近方差结果,并支持 log-cosh 在不同 theta 和 sigma 下估计的一致性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。