QUICK REVIEW

[論文レビュー] Adjusted Plus-Minus for NHL Players using Ridge Regression

Brian Macdonald|arXiv (Cornell University)|Jan 1, 2012

Advanced Statistical Methods and Models参考文献 8被引用数 3

ひとこと要約

この論文は、NHL選手の得点・失点貢献を、チームメートや相手、ゾーンスタートに依存しない形で、均等状態、パワープレイ、ショートランド状態の各状況において、リッジ回帰に基づく補正プラスマイナスモデルを導入する。ゴールだけではなく、フェニックやコーシーといったシュートベースの指標を組み込むことで、ゴールのみに依存する従来のOLS手法よりも推定誤差を低減し、推定精度を向上させる。

ABSTRACT

Regression-based adjusted plus-minus statistics were developed in basketball and have recently come to hockey. The upside to these methods is that they provide an estimate of each player’s contribution to his team, independent of the strength of his teammates, the strength of his opponents, and other variables that are out of his control. One of the main downsides of the ordinary least squares regression models is that the estimates have large error bounds. Since certain pairs of teammates play together frequently, collinearity is present in the data and is one reason for the large errors. In hockey, the relative lack of scoring compared to basketball is another reason. To deal with these issues, we use ridge regression, a method that is commonly used when collinearity is present in the data, in lieu of ordinary least squares regression. We also create models that use not only goals, but also shots, Fenwick rating (shots plus missed shots), and Corsi rating (shots, missed shots, and blocked shots). One benefit of using these statistics is that there are roughly ten times as many shots as goals, so there is much more data when using these statistics and the resulting estimates have smaller error bounds. The results of our ridge regression models are estimates of the offensive and defensive contributions of forwards and defensemen during even strength, power play, and short handed situations, in terms of goals per 60 minutes. The estimates are independent of strength of teammates, strength of opponents, and the zone in which a player’s shift begins.

研究の動機と目的

得点頻度が低く、共線性（multicollinearity）が生じやすいNHL選手の補正プラスマイナス推定値における通常最小二乗法（OLS）回帰の高い分散を是正する。
頻繁なチームメートペアリングと得点数の少なさに起因する共線性を、リッジ回帰を用いて処理することで推定精度を向上させる。
ゴール以外の指標を活用し、フェニックやコーシーといったシュートベースの指標を導入することで、データポイントを増やし、標準誤差を低減する。
均等状態、パワープレイ、ショートランド状態の各状況に応じて別々のモデルを構築し、文脈に特化した貢献度を捉える。
複数のゲーム状態において、チームメートや相手に依存しない、1人当たり60分あたりのゴール数としての選手貢献の不偏推定値を提供する。

提案手法

頻繁な選手ペアの共出現に起因する共線性の問題を緩和するため、通常最小二乗法（OLS）の代わりにリッジ回帰を適用する。
フェニック（シュート数＋ミスシュート数）およびコーシー（シュート数＋ミスシュート数＋ブロックシュート数）といったシュートベースの統計量を用い、データ量を増やし、推定の分散を低減する。
均等状態、パワープレイ、ショートランド状態の各状況に応じて、別々の回帰モデルを構築し、戦略的・戦術的文脈の違いを反映する。
選手貢献を、チーム力、相手力、ゾーンスタート位置を調整した1人当たり60分あたりの期待ゴール数として推定する。
極端な推定値を収縮させるために正則化を組み込み、特に出場時間が限られている選手の推定値の安定性を高める。
リッジペナルティ項を用いた罰則付き尤度アプローチを採用し、過学習を抑制し、回帰係数推定値の標準誤差を低減する。

実験結果

リサーチクエスチョン

RQ1低得点頻度とチームメートの共線性が生じる中で、リッジ回帰はOLSに比べてNHL選手の補正プラスマイナス推定の誤差を低減できるか？
RQ2フェニックやコーシーといったシュートベースの指標は、ゴールベースのモデルに比べて、選手貢献推定の精度をどのように向上させるか？
RQ3チームメート、相手、ゾーンスタート位置を制御した場合、選手の推定値がどれほど安定的かつ信頼性があるか？
RQ4新しいモデルを用いることで、均等状態、パワープレイ、ショートランド状態の各状況において、攻撃的・守備的貢献の違いはどのように異なるか？
RQ5シュートベースの統計量を組み込むことで、従来のプラスマイナスやOLSベースのモデルに比べ、より一貫性があり信頼性の高い選手ランク付けが可能になるか？

主な発見

リッジ回帰により、頻繁なチームメートペアリングに起因する共線性を是正することで、選手の補正プラスマイナス推定値の標準誤差が顕著に低減された。
フェニックおよびコーシー指標の導入により、ゴールベースのモデルに比べてデータポイント数が約10倍に増加し、推定の精度が向上した。
このモデルは、均等状態、パワープレイ、ショートランド状態のすべての状況において、チームメートや相手に依存しない、安定した1人当たり60分あたりのゴール数としての選手貢献推定値を生成した。
出場時間が限られているか、スパースな出場履歴の選手は、リッジ回帰の正則化効果により、より信頼性が高く極端な推定値を示さないようになった。
シュートベースの指標を用いることで、従来のプラスマイナスやOLSベースのモデルに比べ、選手ランク付けがより一貫性があり、スキルレベルの差をより明確に区別できるようになった。
チーム力、相手の質、ゾーンスタート位置といった外部要因を制御することで、このモデルは個々の選手貢献を的確に分離し、より公平なパフォーマンス評価を可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。