Skip to main content
QUICK REVIEW

[论文解读] Simultaneous Estimation of Ballpark Effects and Team Defense Using Total Bases Residuals

Jhe-Jia Wu, Tian-li YAN|arXiv (Cornell University)|Mar 22, 2026
Sports Dynamics and Biomechanics被引用 0
一句话总结

这篇论文引入一种回归框架,使用 Total Bases Residuals (TBR) 在以出球速度和发射角为条件下,同时估算球场效应和球队防守,数据来自 2015–2024 年的 Statcast。

ABSTRACT

Estimating ballpark effects and team defense in baseball is challenging because batted-ball outcomes are influenced by multiple factors, including contact quality, ballpark environment, defensive performance, and random variation. In this study, we propose a simple and interpretable framework based on Total Bases Residuals (TBR). Using Statcast data from 2015 to 2024, we construct expected total bases conditional on exit velocity and launch angle, and define residuals relative to this baseline. These residuals allow us to separate the effects of ballpark environment and team defense and to estimate them simultaneously within a unified regression framework. Our results show that, when our estimates differ from official MLB metrics, the differences can be explained by consistent patterns in home and away performance for both teams and their opponents, providing empirical support for our approach. Similar patterns are also observed in comparisons with existing defensive metrics. The results also suggest changes in league-wide outcomes and are broadly consistent with developments in the game, including the increased use of data-driven positioning, the restriction on defensive shifts, and possible changes in the physical properties of the baseball. We further introduce a standardized index that facilitates comparison across teams, ballparks, and seasons by expressing effects in units of standard deviation.

研究动机与目标

  • 说明将球场效应与球队防守从击球球结果中分离的必要性。
  • 提出一个简单、可解释的基于 TBR 的框架,以隔离环境和防守因素。
  • 使用大规模、聚合的回归方法联合估计球场和防守效应。
  • 评估球场效应随时间的稳定性,并将防守估计与现有指标进行比较。
  • 提供一个标准化指数,以在球队、球场和赛季之间比较效应大小。

提出的方法

  • 通过在 EV 和 LA 条件下,令 R_i = TB_i - μ_g(i) 成立,其中 μ_g 是 EV–LA 网格单元内的经验均值 TB。
  • 在 EV(3 mph 的分箱,0–120 mph)和 LA(3 度分箱,-90 到 90)上定义网格。
  • 将单元均值 μ_g 计算为跨赛季对该单元内所有击球的平均值。
  • 将 R_i 建模为加性回归:R_i = β^park_{p(i)} - β^def_{d(i)} + β_0 + ε_i,附带可识别性约束。
  • 按球场–防守单元 (p,d) 汇总观测值以估计单元均值 y_{pd},并执行带权最小二乘回归 y_{pd} = β_0 + β^park_p - β^def_d + ε_{pd},权重为 n_{pd}。
  • 以联盟平均值为中心对效应进行居中,得到居中的球场和防守效应及修订的截距;给出基于标准化 z 分数的效应量指数。
Figure 1: Yearly Comparison of League-Wide Intercept Over Time (2015–2024).
Figure 1: Yearly Comparison of League-Wide Intercept Over Time (2015–2024).

实验结果

研究问题

  • RQ1在控制接触质量后,是否可以从击球球残差中同时估计球场效应与球队防守?
  • RQ2估计的球场效应是否与众所周知的打者偏好/投手偏好环境一致并表现出时间稳定性?
  • RQ3拟议的球场与防守估计与官方 MLB 球场因素和现有防守指标(Def、OAA、OEE)相比如何?
  • RQ4标准化指数是否便于跨赛季、跨球队、跨球场比较效应大小?

主要发现

  • 估计的球场效应呈现预期模式(如 COL/CIN 的打者友好球场;SFG/SEA 的投手友好球场),并大体与联盟层面的模式一致。
  • 估计的球场因素随时间相对稳定,平均而言跨赛季变异性低于 MLB 官方球场因素。
  • Total Bases Residual 框架得到的防守估计大致与已建立的指标(Def、OAA)相符,并反映出主客场击球结果的模式。
  • 案例研究(如 Comerica Park、Minute Maid Park、Tropicana Field、Target Field)显示 MLB 球场因素与基于 TBR 的球场效应存在系统差异,主客场模式支持所提出的方法。
  • 提出一个基于 100 的标准化指数,方便跨球队/球场/赛季比较效应大小。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。