基于机器学习的2022卡塔尔世界杯冠军预测-个人期末项目总结

基于机器学习的2022卡塔尔世界杯冠军预测-个人期末项目总结

声明文中内容基于山东某高校数据挖掘课程的学习成果本系列文章为课程期末项目的个人总结。

【2022年6月补充非常不好意思大家当时是笔记用我没想到这么久还有人看捂脸因为个人考上了研究生平时忙着论文项目等内容…自己也不经常上CSDN好多内容因为跟自己关联不大导致自己也忘记了…可能不能帮大家解答太多东西了…我把源代码和数据源附下吧】

P.S.两年前能跑通的代码现在不太能保证哈…可能需要升级一些库什么的吧…都是一些基础内容仅供大家学习用呢。

通过对2018年之前世界杯各个国家球队的表现以及比分结果进行数据分析并结合以往各个球队在历届世界杯中的表现通过机器学习算法建立模型并对其进行评价以及模型优化之后进行模拟2022年卡塔尔世界杯的冠军球队的归属。

该数据存在诸多多余的属性如比赛年份比赛场地等。我们首先去掉无关的属性只留下主队、客队、主队进球数、客队进球数比赛结果。其中结果集分为1为主队获胜2为客队获胜-1为平局。

此时我们发现仅有主场客场比分并不能很好地分析每个队的实力所以我们要进行数据统计找出新的特征值来扩充数据集。

合并后生成的tr_data_after.csv中内容为主队、客队、主队参赛次数、客队参赛次数、主队胜利次数、客队胜利次数、主队进球数、客队进球数、主队胜率、客队胜率、主队场均进球、客队场均进球、比赛结果。

此处统计数据共有900行即纾解杯中所有比赛场次特种扩充到了15列

方便展示可以使用Echart将统计到的各个国家的信息进行简单的数据可视化

其中标准分数z-score是一个分数与平均数的差再除以标准差的过程。

其中x为某一具体分数μ为平均数σ为标准差。

此处使用了神经网络、逻辑回归、支持向量机、决策树、随机森林算法分别进行训练。

尝试方法一分别输出以上机器学习算法的学习曲线a;

结果图上可以看出随着数据量的增加三组模型虽然趋近于收敛但是在训练集和检验集上准确度表现都很差仅有0.58左右。这预示着存在着很高的偏差是欠拟合的表现。

决策树和随机森林出现了高方差情形也就是过拟合的情况。这都预示着我们要找到正确率低原因并且优化我们的模型。

统计出每个特征关联度的均值后我们发现大部分的特征关联度都在0.738021~0.710410之间也就是说大部分特征都与结果呈现出了相对较高的关联性。

尝试方法三以上两种方法进一步缩小了误差原因于是重新分析测试集与预测结果如图

发现在预测平局方面算法预测结果有着较大的误差。于是我们推测由于结果集中的平局拉低了模型的准确度。

进一步查询有关资料发现我们所使用的决策树算法随机森林算法还有逻辑回归都典型二分类的算法。而此时我们的结果集有三类。

我们重新检查数据源发现平局的情况仅有199条而仅凭借着这些较少数据量去很好的训练数据是不合适的。于是我们开始探讨简化结果集即去掉平局结果的可行性。

在充分了解世界杯的规则后从16强开始就意味着告别了小组赛开始了淘汰赛。如遇到平局就开始加时赛以及点球大战。即比赛结果只有胜负两种结果。而数据集中的比赛结果是将点球大战排除在外的90分钟内的比赛结果。所以含有平局的情况。

由上可见准确度有了略微的提升但这还不是我们想要达到的准确度。于是我们继续研究并尝试使用深度学习算法继续提升模型的准确度。

于是我们使用了Sequential模型它是多个网络层的线c;通过堆叠许多层构建出深度神经网络。

正确率已经能够到达92%。但需要进一步的调参找到更合适的参数防止过拟合。

结果 建置状态 网站: 保加利亚语版本: : 英文版本: : 准确性得分/结果(1990年至2018年所有国际比赛) 模型 简历准确率10倍(%) 人工神经网络 51.06 维护者: 维克多韦列夫 乔治科恰科夫(Georgi Korchakov) 克里斯约切夫(Kris Yochev)

年11月21日揭幕,决赛将于12月18日举行,这是历史上首次在中东国家举办

足球赛。AL RIHLA由阿迪达斯创造,在阿拉伯语中意为“旅途”,其球身设计从

文章目录背景抽签规则实验设计代码实现Team类Group类RankGroupPlanAssignerWorldCupDraw运行结果 背景 今天凌晨举行了

小组抽签仪式,作为球迷,昨天下午我也模拟实现了该过程,今天分享给大家。 编写语言为java8,开发环境为Idea IC。 抽签规则 给非球迷朋友或对

32强分为四档,每档8支球队; 同档不同组,非欧洲球队不同组,欧洲球队最多两支同组; 没有踢完洲际附加赛

荷兰小球迷,还列出了一排福利: ■荷兰进八强,请XXX ■荷兰进四强,请XXXX ■荷兰进决赛,请XXXXX 我不懂足球,甚至我一直听

都是河南(荷兰)但是没关系,像算法就是在训练一种新

结果进行预(jing)测(cai),那么如何科(yi)学(ben)严(zheng)谨(jing)

进行呢? 首先我们来看一下比赛规则 1.比赛规则 1.1小组赛阶段 32支参赛队通过抽签分为八个小组,每个小组分别有四支球队进行比赛,每支球队都必须和其他三支球队进行且只进行一场比赛,每组4个队循环比赛,共打6场,每…

发表回复

Your email address will not be published. Required fields are marked *.

*
*
You may use these <abbr title="HyperText Markup Language">HTML</abbr> tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>