预测运动胜负大法,利用资料累积搭配机器学习探索《财富密码》

您是否有做过投资运彩的发财梦呢,或幻想过周公托梦给您一封如何靠投资运彩赚大钱的《财富密码》!?

但是…幻想发财梦这些行为是不切实际的,不过今天我们Guess365数据工程师分享一篇却能离发大财近一点的预测方法。

今天来分享一篇研究,由Shu-Fen Li所撰写的《Exploring and Selecting Features to Predict the Next Outcomes of MLB Games》,是一篇利用资料累积方法搭配机器学习去预测MLB明日比赛结果,根据实验结果呈现该方法有高达65~70%的准确率,若专注於某队伍真的能够赚大钱。

实验流程

如图一所示为作者建构模型的工作流程,实验所蒐集的MLB比赛数据皆来自Baseball-reference.com网站,该网站提供各种棒球比赛进阶数据。

作者选择使用的预测方法很特别,他依据每一支队伍把比赛拆分成不同资料集,并为此训练一个专属他们的预测模型。


工作流程
选择的特徵皆是一些基本数据,像是打击群的安打数(H)、全垒打数(HR)、打点(RBI)、上垒率(OBP)…、投手群的的三振数(SO)、四坏球数(BB)、防御率(ERA)、每局被上垒率(WHIP),与球队当季胜率(WIN%)。


特徵选择
资料前处理如标题提到的方法,他们参考其他做的作法选择使用资料累积法,将每个特徵依据比赛场次一直累加直到赛季结束。如图三是太空人队的数据,从2015年第1场到累加到第162场,隔年2016年则从头开始累加。


资料累积数据

工作流程也提到他们有使用特徵筛选,来评估选前、选後的效果,递回特徵消除(Recursive feature elimination, RFE)是在包装法(Wrapper)常见筛选方法,主要原理是通过建构基本模型,并给定特徵集合N、想要的特徵数量X後,RFE会根据演算法取出coef_及feature_importances_,来删除不重要的特徵,而剩余的特徵则会进行下一轮训练,并重复上述动作直到达到想要的特徵数量。


特徵筛选

预测模型

选择不同的分类演算法对於预测结果具有一定影响力,作者选择使用的分类演算法有四种,(一) 逻辑回归 (Logistic Regression);(二) ANN (多层感知器);(三) 1 DCNN(一维CNN);(四) SVM(支援向量机)。

根据结果显示作者使用资料累积法对SVM能产生不错的预测准确度,Guess365数据科学家根据方法复刻模型与资料集的确效果不赖,每只队伍的SVM都有65~70%准确度。


性能评估

获利能力也不错,如果我把2021年洋基整季的比赛喂给模型做预测,准确度高达62%,若平均下注1000NT最终获利也有6420NT回馈。


获利评估

小结

作者将模型拆分成30种小模型,搭配资料累积方法来针对每支球队的比赛风格做预测。跟以往将所有比赛数据参杂在一起做训练有些不同,我想作者的用意是专精单一种球队会比专精所有球队更能达到训练效果吧,就好像学生到大学後也开始专攻自己喜爱的科目一样。

作者提供的预测方法同时也反应,分散投资的重要性。


<<:  Nvidia Docker安装说明(含WSL2)

>>:  NBA大数据预测高达65%准确且能赚钱的分析研究,究竟是真是假呢?

铁人赛 Day5 -- 建立属於自己的MySQL资料库

前言 作天终於把我们的帐号设定完成後,就可以来建立我们的资料库啦 建立属於自己的资料库 1.接下来建...

连续 30 天 玩玩看 ProtoPie - Day 23

今天来玩这个,模拟一个旋转钮。 (其实是 Slider 但这东西真不容易翻译。等等直接看图片吧。) ...

[JS] You Don't Know JavaScript [this & Object Prototypes] - Object [下]

前言 在Object [上]中我们介绍了物件的宣告、型态、拷贝等等特性,接下来我们继续介绍物件中都有...

[Day18]基本款网格交易

网格交易的讯号跟之前使用的讯号最大差别就是,网格他并不是只有满手和空手的选项,他会有一个部位大小。所...

中阶魔法 - 闭包 Closure (一)

前情提要 「艾草艾草,你在做什麽?」 艾草:「没特别做什麽呀!」 「艾草艾草,我问你喔!」 艾草:「...