Skip to main content
QUICK REVIEW

[论文解读] Depth statistics

Karl Mosler|arXiv (Cornell University)|Jul 20, 2012
Advanced Statistical Methods and Models参考文献 18被引用 62
一句话总结

本文综述了数据深度统计的发展与应用,这是一种非参数方法,将单变量的中位数和四分位数等概念推广至多变量和函数型数据。它引入了基于深度的中心区域,作为稳健且对形状敏感的工具,用于描述位置、尺度和分布形态,其理论基础可延伸至概率分布和函数空间。

ABSTRACT

In 1975 John Tukey proposed a multivariate median which is the 'deepest' point in a given data cloud in R^d. Later, in measuring the depth of an arbitrary point z with respect to the data, David Donoho and Miriam Gasko considered hyperplanes through z and determined its 'depth' by the smallest portion of data that are separated by such a hyperplane. Since then, these ideas has proved extremely fruitful. A rich statistical methodology has developed that is based on data depth and, more general, nonparametric depth statistics. General notions of data depth have been introduced as well as many special ones. These notions vary regarding their computability and robustness and their sensitivity to reflect asymmetric shapes of the data. According to their different properties they fit to particular applications. The upper level sets of a depth statistic provide a family of set-valued statistics, named depth-trimmed or central regions. They describe the distribution regarding its location, scale and shape. The most central region serves as a median. The notion of depth has been extended from data clouds, that is empirical distributions, to general probability distributions on R^d, thus allowing for laws of large numbers and consistency results. It has also been extended from d-variate data to data in functional spaces.

研究动机与目标

  • 将数据深度的概念从单变量中位数形式化并扩展至多变量和函数型数据。
  • 发展一种稳健的非参数方法,用于描述数据分布的位置、尺度和形态。
  • 建立基于深度的统计的理论基础,包括大数定律和一致性结果。
  • 通过比较其计算可行性、稳健性和对数据非对称性的敏感性,统一各种深度概念。
  • 将深度从经验数据点云扩展至一般的概率分布和函数空间。

提出的方法

  • 提出以Tukey深度概念为基础,将多变量中位数定义为数据点云中‘最深’的点。
  • 根据Donoho与Gasko的方法,通过经过点z的超平面所分离的数据最小比例来定义点z的深度。
  • 构建深度截断或中心区域作为深度统计的上水平集,以捕捉数据的中心行为。
  • 为保证理论一致性,将深度定义从经验分布推广至R^d上的一般概率分布。
  • 通过将框架推广至无限维空间,将深度概念应用于函数型数据。
  • 利用基于深度的区域以非参数方式表示分布的特征,如位置、尺度和形态。

实验结果

研究问题

  • RQ1如何利用基于深度的方法将中位数的概念推广至多变量和函数型数据?
  • RQ2当深度统计扩展至一般概率分布时,其理论性质是什么?
  • RQ3不同深度概念在稳健性、可计算性和对数据非对称性敏感性方面有何比较?
  • RQ4深度截断区域在多大程度上能有效描述数据点云的中心结构?
  • RQ5如何有意义地将深度从有限维数据扩展至希尔伯特空间或巴拿赫空间中的函数型数据?

主要发现

  • 数据深度为经典多变量位置和尺度度量提供了一种稳健的非参数替代方法。
  • 深度截断区域构成一组集合值统计量,能够捕捉数据分布的中心和最具代表性部分。
  • 最核心的区域对应于多变量中位数,从而推广了单变量中位数的概念。
  • 在一般概率测度下,为基于深度的统计建立了理论一致性结果,包括大数定律。
  • 该框架成功扩展至函数型数据,实现了在无限维空间中的深度分析。
  • 不同深度概念在计算复杂度和对数据形状的敏感性方面存在差异,从而可针对特定统计问题进行定制化应用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。