QUICK REVIEW

[论文解读] Win Prediction in Esports: Mixed-Rank Match Prediction in Multi-player Online Battle Arena Games

Joanna Hodge, Sam Devlin|arXiv (Cornell University)|Nov 17, 2017

Digital Games and Media被引用 23

一句话总结

本文提出使用混合段位（职业选手与极高段位非职业选手）的Dota 2对战数据来训练机器学习模型，以预测职业电竞比赛的胜负，其中仅使用职业数据存在数据不足的问题。尽管准确率略有下降，但基于混合游戏内数据训练的模型在职业比赛中仍表现出色，表明高段位非职业选手的数据可有效补充有限的职业数据，实现多人在线战术竞技场（MOBA）比赛中可靠的胜率预测。

ABSTRACT

Esports has emerged as a popular genre for players as well as spectators, supporting a global entertainment industry. Esports analytics has evolved to address the requirement for data-driven feedback, and is focused on cyber-athlete evaluation, strategy and prediction. Towards the latter, previous work has used match data from a variety of player ranks from hobbyist to professional players. However, professional players have been shown to behave differently than lower ranked players. Given the comparatively limited supply of professional data, a key question is thus whether mixed-rank match datasets can be used to create data-driven models which predict winners in professional matches and provide a simple in-game statistic for viewers and broadcasters. Here we show that, although there is a slightly reduced accuracy, mixed-rank datasets can be used to predict the outcome of professional matches, with suitably optimized configurations.

研究动机与目标

通过补充极高段位非职业选手数据来解决职业对战数据稀缺的问题，以训练预测模型。
评估混合段位数据集是否能在不同段位玩家行为存在差异的情况下，可靠地预测职业比赛结果。
识别在使用游戏内特征和英雄选择特征时，预测职业MOBA比赛胜负结果的最有效机器学习算法及其配置。
开发一种实用的、基于数据的实时胜率预测框架，供转播方和观众使用，以提升电子竞技观众的参与度。

提出的方法

本研究使用混合段位数据集，结合Dota 2的职业比赛与极高段位非职业选手的比赛数据，确保更广泛的数据覆盖。
特征工程提取了游戏内时间序列统计数据（如金币、经验、击杀/死亡比率）以及赛前英雄选择数据。
评估了两种主要机器学习算法——随机森林与逻辑回归，并通过广泛的超参数调优与特征选择以优化性能。
模型在混合段位数据上进行训练，并在未见过的职业比赛数据上进行测试，以评估其泛化能力与预测准确率。
通过比较不同数据类型（英雄选择 vs. 游戏内状态）和模型配置下的预测准确率，评估并识别最优配置。
研究采用基于时间的评估策略，每20分钟评估一次预测准确率，以评估模型在比赛进程中的表现。

实验结果

研究问题

RQ1能否使用混合段位数据集（结合职业与极高段位非职业选手比赛）来训练模型，以准确预测职业比赛结果？
RQ2与仅使用职业数据训练的模型相比，使用混合数据训练的模型在预测职业比赛结果时，其预测准确率如何？
RQ3哪种机器学习算法及其配置（如超参数、特征集）能为职业比赛的胜负预测提供最高准确率？
RQ4英雄选择特征与游戏内状态特征在预测职业比赛结果方面表现如何比较？
RQ5比赛时长是否会影响预测准确率？这种影响在职业与非职业比赛中是否存在差异？

主要发现

在混合段位游戏内数据上训练的模型，在职业比赛上的预测准确率仅比其在混合数据上的表现略低，表明具有较强的泛化能力。
仅依靠英雄选择特征对职业比赛结果的预测表现较差，因为职业选手的选英雄策略具有非标准、高度复杂的特性，非职业数据难以捕捉。
游戏内时间序列特征（如金币、经验、击杀/死亡差值）显著优于英雄选择特征，尤其在预测职业比赛结果时。
职业与非职业数据的最优模型配置存在差异，表明职业比赛因具有独特的玩家行为模式，需采用不同的建模方法。
职业比赛平均持续时间更长（100%的职业比赛持续20分钟以上，而所有比赛为97.6%），这与更高的不可预测性相关，导致预测准确率下降。
本研究证明，混合段位数据可有效补充有限的职业数据，从而实现首个可靠的数据驱动型职业电竞胜率预测框架。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。