Skip to main content
QUICK REVIEW

[论文解读] Multimode: An R Package for Mode Assessment

Jose Ameijeiras‐Alonso, Rosa M. Crujeiras|arXiv (Cornell University)|Mar 1, 2018
RNA and protein synthesis mechanisms参考文献 22被引用 26
一句话总结

本文介绍了 R 包 multimode,该包为单变量数据中的多峰性提供了非参数化的探索性与推断性评估工具。它整合了 SiZer 图和模式树等图形方法,以及基于临界带宽和超额质量的正式假设检验,能够稳健识别显著的峰及其位置。

ABSTRACT

In several applied fields, multimodality assessment is a crucial task as a previous exploratory tool or for determining the suitability of certain distributions. The goal of this paper is to present the utilities of the R package multimode, which collects different exploratory and testing nonparametric approaches for determining the number of modes and their estimated location. Specifically, some graphical tools, allowing for the identification of mode patterns, based on the kernel density estimation are provided (SiZer map, mode tree or mode forest). Several formal testing procedures for determining the number of modes are described in this paper and implemented in the multimode package, including methods based on the ideas of the critical bandwidth, the excess mass or using a combination of both. This package also includes a function for estimating the modes locations and different classical data examples that have been considered in mode testing literature.

研究动机与目标

  • 开发一个全面、用户友好的 R 包,用于评估单变量数据分布中峰的数量和位置。
  • 解决在核密度估计中区分真实峰与抽样变异性的挑战。
  • 提供探索性图形工具和正式假设检验程序,用于多峰性检测。
  • 使研究人员能够在非参数框架下测试单峰性和一般多峰性,并获得校准后的 p 值。
  • 支持在天文学、遗传学和心理学等科学领域中,对多个数据集进行系统化、可重复的分析,其中峰结构具有科学意义。

提出的方法

  • 实现 SiZer(显著零)图,以可视化不同带宽下峰的持久性,识别核密度估计中的统计显著特征。
  • 整合模式树和模式森林可视化,以追踪不同带宽下的模式变化,辅助识别模式模式。
  • 结合基于临界带宽(Silverman, 1981)和超额质量(Hartigan & Hartigan, 1985)的正式检验程序,并采用自举法计算 p 值。
  • 开发 `locmodes` 函数,通过迭代优化和临界带宽计算,估计峰和反峰的位置及其密度值。
  • 使用 `modetest` 函数测试单峰性与多峰性,支持自举分位数和显著性水平调整。
  • 通过包装函数整合 `diptest` 和 `feature` 包的功能,确保兼容性并扩展实用性。

实验结果

研究问题

  • RQ1研究人员如何可靠地区分核密度估计中的真实峰与抽样伪影?
  • RQ2哪些图形工具能有效揭示单变量数据在不同带宽下持续存在的峰模式?
  • RQ3如何在 R 中以非参数化、稳健且校准的方式实现多峰性检验的正式假设检验?
  • RQ4给定数据集中最优的峰数是多少?其位置在统计上是否可靠?
  • RQ5multimode 包如何支持在不同科学领域中系统化、可重复且可再现的峰评估?

主要发现

  • multimode 包是 R 中首个同时整合探索性图形工具(SiZer、模式树)和正式检验程序用于一般多峰性检验的实现。
  • `locmodes` 函数成功估计出 1872 年 Hidalgo 邮票厚度数据中四个峰,分别位于 0.07857、0.09065、0.1006 和 0.1083,对应密度值和临界带宽。
  • SiZer 图与 `modetest` 函数联合支持四峰显著的结论,尤其在带宽对应 log10(h) ≈ -2.7 时更为明显。
  • 该包通过 Hartigan 拐点检验和基于自举的 p 值,实现了可靠的单峰性检验,已在天文学和表观遗传学中得到应用验证。
  • 该包是 R 中唯一提供校准良好、非参数化的一般多峰性检验工具,不限于单峰性检验。
  • 未来可扩展至圆形数据及其他非欧几里得空间,已有理论基础和相关包中的部分实现支持该方向。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。