论文部分内容阅读
球员赛后评分一直是足球领域重要的组成部分,而足球作为世界第一体育运动,具有巨大的经济价值,机器学习运用于足球领域具有很大的前景。此外、研究球员赛后评分也能应用于比赛结果预测、转会身价评估等足球领域的其他场景。机器学习在球员赛后评分中的研究,属于综合评价和机器学习相结合的交叉学科研究。本文的工作从数据获取、评分模型构建、评分应用三个方面进行展开。数据缺失是普通学者进行足球相关研究遇到的首要问题,特别是从事机器学习领域研究的学者,往往缺乏专业足球数据提供商的数据支持。对于大部分学者来说,只能通过网页获取不完整的信息,没有完整的数据支持,研究工作便无法正常的开展。因此,本文提出了利用爬虫技术批量获取足球数据的方法,能以完整的赛季为单位,批量的获取某个联赛整个赛季的完整足球数据,以供学者进行数据挖掘和分析。此外,在数据处理方面,本文提出了一种姓名相似度算法,用于在爬取的不同数据集上进行球员姓名的匹配。评分模型构建也是进行球员赛后评分的关键工作,好的评分模型能提高评分的准确率和可靠性,从而提高评分的应用价值。针对模型构建,本文首先提出了一种基于回归算法的模型。该模型用训练集中的球员统计数据去拟合训练集中的专家评分,训练出模型后用测试集的球员统计数据进行测试,并与测试集上的专家数据进行对比。实验结果表明,该模型生成的评分比目前主流的whoscored评分更加接近专家评分。此外,本文对普通的回归模型进行了优化,提出了聚类与回归相结合的思路:首先根据球员类型对球员进行聚类,然后在同一类型的球员的数据集中进行训练,分别对每个类构建不同的回归模型,最后各个模型上分别进行测试。实验结果表明,聚类与回归相结合的思路,能提高模型效果,使得模型评分更加接近专家评分。准确的赛后评分系统能用于足球领域的不同场景,如阵容选择、转会决策、比赛预测等。本文主要介绍了球员赛后评分在比赛预测方面的应用,提出了利用球员评分计算球队评分,并用球队评分和PageRank的改进算法来预测比赛结果。实验结果表明,以球员评分为基础进行比赛预测效果好于用历史战绩来预测比赛。