Skip to main content
QUICK REVIEW

[论文解读] broom: An R Package for Converting Statistical Analysis Objects Into Tidy Data Frames

David Robinson|arXiv (Cornell University)|Dec 11, 2014
Data Analysis with R参考文献 11被引用 55
一句话总结

broom 软件包为将 R 中杂乱的统计模型输出转换为结构化的数据框提供了一个标准化框架,使用三个核心通用函数:tidy(组件级估计)、augment(观测级预测)和 glance(模型级统计量)。这使得与 tidyverse 工具(如 dplyr 和 ggplot2)的无缝集成成为可能,显著简化了多个模型或模拟中的模型分析、比较和可视化工作。

ABSTRACT

The concept of "tidy data" offers a powerful framework for structuring data to ease manipulation, modeling and visualization. However, most R functions, both those built-in and those found in third-party packages, produce output that is not tidy, and that is therefore difficult to reshape, recombine, and otherwise manipulate. Here I introduce the broom package, which turns the output of model objects into tidy data frames that are suited to further analysis, manipulation, and visualization with input-tidy tools. Broom defines the "tidy", "augment" and "glance" generics, which arrange a model into three levels of tidy output respectively: the component level, the observation level, and the model level. I provide examples to demonstrate how these generics work with tidy tools to allow analysis and modeling of data that is divided into subsets, to recombine results from bootstrap replicates, and to perform simulations that investigate the effect of varying input parameters.

研究动机与目标

  • 解决 R 中广泛存在的统计模型输出杂乱问题,此类问题会阻碍高效的数据分析以及与 tidyverse 工具的集成。
  • 为从基础 R 和第三方软件包中转换模型对象为结构化、整洁的数据框,提供一个标准化且可扩展的接口。
  • 通过标准化输出格式,实现在多个模型、自举重采样或模拟运行中对模型结果的无缝分析。
  • 弥合复杂且非整洁的模型输出与现代数据分析工作流中必不可少的整洁数据框架之间的差距。
  • 通过鼓励软件包开发者为其自身模型对象实现一致的 tidy、augment 和 glance 方法,促进互操作性。

提出的方法

  • 引入三个 S3 通用函数——tidy、augment 和 glance——以标准化将统计模型输出转换为整洁的数据框。
  • 将整洁数据原则(每列一个变量,每行一个观测,每张表一个观测单元)应用于模型组件、观测值和模型摘要。
  • 为常见模型类型实现方法,包括线性模型(lm)、广义线性模型(glm)、混合效应模型(lmer)、生存模型(coxph)和正则化模型(glmnet)。
  • 使用 dplyr 和 ggplot2 的工作流演示对整洁化输出的端到端分析,包括模型比较、模拟和可视化。
  • 通过将多个模型的结果重新组合为单一整洁数据框,支持复杂的分析工作流,如自举重采样和模拟研究。
  • 设计该软件包具有可扩展性,允许第三方软件包为其自身模型对象实现 tidy、augment 和 glance 方法,以实现与 tidyverse 生态系统的完全兼容。

实验结果

研究问题

  • RQ1如何将来自不同 R 软件包的统计模型输出标准化为一致且整洁的数据格式,以实现更简单的分析?
  • RQ2将模型输出转换为整洁数据在多大程度上能提高数据分析工作流的效率和可重复性?
  • RQ3整洁化模型输出是否能够支持在多个模型(如自举重采样或模拟研究)中的可扩展分析?
  • RQ4broom 框架如何促进模型结果与可视化和转换工具(如 ggplot2 和 dplyr)的集成?
  • RQ5在探索性数据分析和模型诊断中,使用标准化模型整洁化方法的实际优势是什么?

主要发现

  • broom 软件包成功地将复杂的、杂乱的模型输出(如系数估计、残差和模型拟合统计量)转换为结构化、可重用的整洁数据框。
  • 整洁化模型输出使得与 dplyr 和 ggplot2 的无缝集成成为可能,使分析人员能够在一个单一工作流中对多个模型执行分组操作、过滤和可视化。
  • 使用 broom 进行的模拟研究显示,随着残差标准差(σ)的增加,聚类中心估计的准确性下降,在 σ = 4 时观察到系统性偏差。
  • 在较高 σ 值下,组内平方和的轮廓变得不那么明显,使得最优 k 值的选择更具挑战性,这通过分面 ggplot2 可视化得以展示。
  • 分类纯度(以正确分配点的比例衡量)随着 σ 的增加而平均下降,这通过在重复实验中对准确率的箱线图可视化得到证实。
  • 该软件包实现了对模拟和子组中模型输出的可扩展、可重复分析,显著减少了手动数据整理的需求,以及为保留行名或合并结果而采取的变通措施。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。