QUICK REVIEW

[논문 리뷰] Adjusted Plus-Minus for NHL Players using Ridge Regression

Brian Macdonald|arXiv (Cornell University)|2012. 01. 01.

Advanced Statistical Methods and Models참고 문헌 8인용 수 3

한 줄 요약

이 논문은 NHL 선수의 일인칭 공격 및 수비 기여도를 동점수, 파워플레이, 단수 상황에서 팀메이트, 상대팀, 진입 존 시작 여부와 무관하게 추정하기 위해 릿지 회귀 기반 조정된 플러스마이너스 모델을 소개한다. 골만으로는 제공할 수 없는 데이터보다 더 많은 데이터를 제공하는 슛 기반 지표인 페닉과 코르시를 통합함으로써 추정 오차를 줄이고 기존의 OLS 방법보다 정밀도를 향상시킨다.

ABSTRACT

Regression-based adjusted plus-minus statistics were developed in basketball and have recently come to hockey. The upside to these methods is that they provide an estimate of each player’s contribution to his team, independent of the strength of his teammates, the strength of his opponents, and other variables that are out of his control. One of the main downsides of the ordinary least squares regression models is that the estimates have large error bounds. Since certain pairs of teammates play together frequently, collinearity is present in the data and is one reason for the large errors. In hockey, the relative lack of scoring compared to basketball is another reason. To deal with these issues, we use ridge regression, a method that is commonly used when collinearity is present in the data, in lieu of ordinary least squares regression. We also create models that use not only goals, but also shots, Fenwick rating (shots plus missed shots), and Corsi rating (shots, missed shots, and blocked shots). One benefit of using these statistics is that there are roughly ten times as many shots as goals, so there is much more data when using these statistics and the resulting estimates have smaller error bounds. The results of our ridge regression models are estimates of the offensive and defensive contributions of forwards and defensemen during even strength, power play, and short handed situations, in terms of goals per 60 minutes. The estimates are independent of strength of teammates, strength of opponents, and the zone in which a player’s shift begins.

연구 동기 및 목표

낮은 골 발생 빈도와 공선성으로 인해 기대되는 일반 최소 제곱법(OLS) 회귀 추정치의 높은 분산 문제를 해결하기 위해.
자주 함께 플레이하는 선수 쌍으로 인한 다중공선성 문제를 해결하기 위해 릿지 회귀를 활용해 추정 정확도를 향상시키기 위해.
골 기반 모델보다 더 많은 데이터 포인트를 제공하는 슛 기반 지표인 페닉과 코르시를 도입하여 골 외의 성과 평가를 확장하기 위해.
각기 다른 전략적·전술적 맥락을 반영하기 위해 동점수, 파워플레이, 단수 상황에 대해 별도의 모델을 개발하기 위해.
여러 경기 상황에서 팀메이트와 상대팀에 영향을 받지 않는, 60분당 골 기준으로 산정된 선수 기여도의 편향 없는 추정치를 제공하기 위해.

제안 방법

자주 함께 출전하는 선수 쌍으로 인한 다중공선성 문제를 완화하기 위해 일반 최소 제곱법(OLS) 대신 릿지 회귀를 적용하기 위해.
페닉(슛 + 블로킹되지 않은 슛)과 코르시(슛 + 블로킹되지 않은 슛 + 차단된 슛)와 같은 슛 기반 통계량을 사용하여 데이터 수를 늘리고 추정 분산을 줄이기 위해.
다른 전략적·전술적 맥락을 반영하기 위해 동점수, 파워플레이, 단수 상황에 대해 별도의 회귀 모델을 구축하기 위해.
팀 실력, 상대팀 실력, 진입 존 시작 위치를 조정한 후, 선수 기여도를 60분당 예상 골 수로 추정하기 위해.
극단적인 추정치를 수축시켜 안정성을 향상시키기 위해 정규화를 통합하기 위해.
릿지 펜alties 항을 통해 과적합을 통제하고 계수 추정치의 표준 오차를 줄이기 위해 펨프라이드 가능도 접근법을 사용하기 위해.

실험 결과

연구 질문

RQ1낮은 골 발생 빈도와 선수 쌍의 빈번한 동반 출전으로 인해 다중공선성이 발생하는 상황에서, OLS 대비 릿지 회귀가 NHL 선수 조정된 플러스마이너스의 추정 오차를 줄일 수 있는가?
RQ2페닉과 코르시와 같은 슛 기반 지표는 골 기반 모델 대비 선수 기여도 추정의 정밀도를 어떻게 향상시키는가?
RQ3팀메이트, 상대팀, 진입 존 시작 위치를 통제할 경우, 선수 추정치는 얼마나 안정적이고 신뢰할 수 있는가?
RQ4새로운 모델을 사용할 경우, 동점수, 파워플레이, 단수 상황에서 공격 및 수비 기여도는 어떻게 다를 수 있는가?
RQ5슛 기반 통계량을 포함함으로써 기존의 플러스마이너스 또는 OLS 기반 모델 대비 더 일관되고 신뢰할 수 있는 선수 순위가 도출되는가?

주요 결과

릿지 회귀는 자주 함께 플레이하는 선수 쌍으로 인한 다중공선성 문제를 해결함으로써 선수 조정된 플러스마이너스 추정치의 표준 오차를 크게 줄였다.
페닉과 코르시 지표를 통합함으로써 골 기반 모델 대비 데이터 포인트 수를 약 10배 증가시켜 더 정밀한 추정치를 도출했다.
모델은 모든 동점수, 파워플레이, 단수 상황에서 팀메이트와 상대팀에 영향을 받지 않는 안정적인 60분당 골 기준 선수 기여도 추정치를 생성했다.
제한적 또는 희박한 출전 시간을 가진 선수들은 릿지 회귀의 정규화 효과로 인해 더 신뢰할 수 있고 극단적이지 않은 추정치를 받았다.
슛 기반 지표의 사용은 기존의 플러스마이너스나 OLS 기반 모델 대비 더 일관되고 정밀한 선수 순위를 도출했으며, 기량 수준의 차이를 더 잘 구분할 수 있었다.
팀 실력, 상대팀 품질, 진입 존 시작 위치와 같은 외부 요인을 통제함으로써 모델은 개인 선수의 기여도를 효과적으로 분리했으며, 공정한 성과 평가를 가능하게 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.