[论文解读] ballmapper: Applying Topological Data Analysis Ball Mapper in Stata
论文引入一个 Stata 包 ballmapper,用以应用拓扑数据分析 Ball Mapper (TDABM) 来在不降维的情况下可视化高维数据,并实现数据相关着色与基于球的可解释图形。
Topological Data Analysis Ball Mapper (TDABM) offers a model-free visualization of multivariate data which does not necessitate the information loss associated with dimensionality reduction. TDABM Dlotko (2019) produces a cover of a multidimensional point cloud using equal size balls, the radius of the ball is the only parameter. A TDABM visualization retains the full structure of the data. The graphs produced by TDABM can convey coloration according to further variables, model residuals, or variables within the multivariate data. An expanding literature makes use of the power of TDABM across Finance, Economics, Geography, Medicine and Chemistry amongst others. We provide an introduction to TDABM and the exttt{ballmapper} package for Stata.
研究动机与目标
- 介绍 TDABM 方法及其相较于传统降维方法的优势。
- 展示 Stata 的 ballmapper 包及其安装、使用和输出结构。
- 解释 TDABM 可视化如何通过额外变量着色并回连到原始数据以便解释。
- 通过示例演示实际实现,并讨论球半径在捕捉数据结构中的作用。
提出的方法
- TDABM 用等半径球体覆盖一个 K 维点云,形成一个二维抽象表示。
- 中心点(地标)从未覆盖的点中按顺序选择,直到所有点都被覆盖,产生 L 个球。
- 每个球 b 存储点的数量 nb 以及球内某个着色变量 Y 的平均值 ȳb,以用于可视化。
- 当球的半径-ε 邻域发生重叠时在球之间画出边,形成一个连通的 TDABM 图,球的大小反映密度。
- 着色可以使用任意 Y 变量(包括残差或模型输出)来揭示 X 空间中的结构。
- ballmapper 包构建两个 Stata 框架 BM_RESULTS 和 BM_MERGED,用于图数据和合并的底层数据,以及 sum marize 函数 ballsummary() 和 variablesummary() 进行摘要。

实验结果
研究问题
- RQ1TDABM 如何在不降维的情况下表示高维数据的结构?
- RQ2球半径 ε 的选择如何影响 TDABM 可视化中捕捉到的局部和全局结构?
- RQ3ballmapper 是否能将 TDABM 的图特征与原始数据关联起来,以便解释和模型评估?
- RQ4ballmapper 提供了哪些实际输出和摘要来支持探索性分析?
主要发现
- TDABM 提供了对多变量数据的拓扑忠实、无模型假设的可视化,并且未因降维而丢失信息。
- 球半径 ε 使得在多尺度上探索数据结构成为可能,既能捕捉局部密度也能捕捉全局形状。
- 球的大小反映点密度,边表示球之间的重叠,形成可解释的图结构。
- 球着色使得在数据空间中可视化额外变量或残差,从而支持模型评估和解释。
- ballmapper 的 Stata 包输出 BM_RESULTS 和 BM_MERGED 两个框架,将 TDABM 的球与原始观测相关联,并通过 ballsummary() 和 variablesummary() 支持摘要分析。
- 该方法在迭代中表现出一致的图构建,并通过改变地标顺序来支持鲁棒性检查。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。