当前位置:主页 > 混合云 > 正文

服务器_安装iis服务器_免费1年

时间:2021-05-04 03:56 来源:埃里克云 编辑:埃里克云

核心提示

这个博客是正在进行的博客系列中的第三个——这个博客系列将持续到2019年橄榄球世界杯! 你知道著名的橄榄球名言:"没有擦边球,你创造的每一个数据集都是8个玩家的一个小团体...

这个博客是正在进行的博客系列中的第三个——这个博客系列将持续到2019年橄榄球世界杯!

你知道著名的橄榄球名言:"没有擦边球,你创造的每一个数据集都是8个玩家的一个小团体,它推动着预测的胜利。数据是性能良好的预测模型的基础。数据可能(希望)存在于您的公司系统中。有时你会发现它是原始格式的,你需要进一步改进它,以便它能揭示它的全部潜力。你应该考虑广泛,包括所有可能改善你的模型的变量。运用你的"法式天赋",充满激情。方法。你不仅要收集正确的数据,而且要做得正确。不要低估数据中的错误,如果您认为检查一次数据就足够了,那么请检查两次!像乔尼·威尔金森那样,冷血而专注。决心。在整个数据准备阶段,障碍会不断出现。记住终点线。

(使用最新数据)

我的商业问题,如你所知,现在是有关游戏结果的预测。我需要一个包含过去游戏的数据集来支持我的预测模型的创建。

我必须回答以下四个看似基本的问题:

我的数据集中会有哪一行?我的目标变量是什么?我的数据集中的行列表是什么?(一个与时间紧密相连的问题……)我的数据集中的变量列表是什么?

首先,我必须定义数据集中某一行的含义。

对于橄榄球比赛来说,这并不复杂:两支球队在某一天相遇,其中一支球队获胜(或在极少数情况下出现平局)。

基于此,有助于唯一识别数据集中每一行的信息将是:1队、2队、比赛日期。到目前为止,太好了。

我需要的第二个答案是目标变量的定义。橄榄球比赛可以赢,也可以输,也可以平局。简单地说,我排除了以平局结束的游戏。

因此,我的目标变量是:游戏是赢还是输。

我需要的第三个信息与我要研究的过去游戏的数量有关。在拥有足够数量的数据(为了建立一个好的预测模型,我需要最好的500到1000行我拥有的最少的类-赢了或输了)和不走太远的时间之间必须做出艰难的妥协,显然,2019年的球队无法与1999年或2009年的球队相比。

我建立了截至2016年底的第一个球队相关统计表,检索了2017年、2018年和2019年(直到2019年世界杯开始之前)的所有比赛。将这两个表格(团队和比赛)结合起来,可以得到我之前查看的训练数据集。

行列表:2017年、2018年和2019年的所有比赛,以及截至2016年底的团队统计数据

(仔细整理你的训练数据集)

团队表格

经过多次迭代,此数据表包含了2015/2016年期间每个国家橄榄球队的各自表现。我们要测量每个队各自的力量:

比赛进行,输了,赢了,平局。%赢得比赛不同点尝试、转换、惩罚、放弃2015年世界杯状态:他们赢了吗?他们进入决赛、半决赛、四分之一决赛了吗?球队2015年世界杯和世界杯历史数据(如适用)在主要比赛中的团队表现,包括六国锦标赛、橄榄球锦标赛和年度最佳球员奖。关于每个国家橄榄球联盟的各种统计数据:俱乐部的数量、注册球员、裁判……这似乎令人惊讶,但我用它来"衡量"每个国家对橄榄球这项伟大运动的兴趣。世界橄榄球排名,以得分和各自球队在排名中的位置表示。团队所在国家的人类发展指数,再次表示为等级和绝对指标。

在一天结束时,每个团队由一组48个特征(变量)定义。数据集包含115支球队,不一定每个国家都有橄榄球队,但主要的球队都有。

比赛表

这张表是2017年2月3日(1月对橄榄球来说太冷)到2019年9月7日(美国以20比15击败加拿大)之间举行的1268场国际比赛的大名单,世界杯开赛前不久。对于每场比赛,我们有一个1队,一个2队,一个比赛结果(赢/输)和分差,尝试等…

像美国-加拿大这样的比赛在数据集中出现两次是毫无价值的。第一队是美国队,第二队是加拿大队,第一队获胜。第二次一队是加拿大,二队是美国,一队输了。我以这种方式创建数据集,这样记录的数量最终将足以满足我的预测建模需求。

游戏和团队SQL视图

一旦我将桌面游戏和桌面团队完全正确,剩下的唯一事情就是加入它们,这样对于每一个游戏,我将拥有团队1的特征,第二队的特点和比赛结果

这是我训练数据的基础。后来,我意识到这其实不是关于每支球队各自的实力,而是关于两支球队之间的差异。

举个具体的例子,一支球队不会赢,因为它的世界排名在70到80分之间。它很可能获胜,因为与对手的差距很大。所以在数据集的定义上做了大量的工作,实际上是比较每个团队的不同特征。

我将通过GitHub分享最终的训练数据集。

我已经准备好训练我的预测模型,这将是下一集的主题!(悬崖勒马)

(当你的数据集终于准备好了!)

  • 企业网站_新白娘子传奇百度云_折扣 企业网站_新白娘子传奇百度云_折扣

    你好,社区, BSI TaxFactory和TaxFactory SaaS发布版本11.0可用。 在我们的合作伙伴BSI将其产品/产品BSI TaxFactory 10.0的维护延长至2021年4月30日之后。SAP还决定在2021年4月30日之前为BSI TaxFactor...

  • 消息队列_华云服务器_限量秒杀 消息队列_华云服务器_限量秒杀

    啊。我已经很久没在这里写博客了-对不起? 但这是一个很好的机会让我重新上马,这是我与SAP TechEd Barcelona的SAP社区负责人Craig Cmehil的"无采访视图"(无采访视图就像一次真正的采访...

  • <strong>域名备案_查看数据库密码_怎么样</strong> 域名备案_查看数据库密码_怎么样

    在本文中,我们将看到如何在sapcloudfoundry环境中为Spring启动应用程序配置OAuth2授权。但是在这样做之前,让我们先熟悉一下这个实现中涉及的几个重要概念。 简介 OAuth2–是一个授权框...

  • <strong>MySQL数据库_网站cdn_多少钱</strong> MySQL数据库_网站cdn_多少钱

    您已经听说了SAP Graph在SAP TechEd Las Vegas 2019发布的消息。微软Graph也非常棒,非常相似(哲学上+技术上),它不仅非常有用,而且我会给你一个微软Graph的工作示例/教程,让你了解它,...

  • 京东云_网站建设中页面_学生机 京东云_网站建设中页面_学生机

    在可预见的未来,向S/4HANA过渡的公司特定规划已将每个SAP客户列入其议程。S/4HANA实施项目越来越近了,因此也有一个问题:在技术和开发层面必须做哪些准备?正是这个主题是"S/4H...

  • <strong>天翼云_网站服务器失去响应怎么回事_代</strong> 天翼云_网站服务器失去响应怎么回事_代

    大家好, 欢迎来到一个关于用户浏览器没有启用JavaScript的用户体验主题的简短博客。 考虑到1%的设计理念,如果我们考虑那些禁用或不可用JavaScript的浏览器的用户(出于"天知道为什...

  • <strong>对象存储_网站建设外贸_速度快</strong> 对象存储_网站建设外贸_速度快

    在本文中,我将展示如何通过负载平衡器为我们的生产数据库构建一个具有高可用性的HANA驾驶舱。我建议您开始阅读SAP指南HowTo:High Availability for SAP HANA cockpit using SAP HANA system replicat...

  • <strong>中间件_重庆网站建设策划_促销</strong> 中间件_重庆网站建设策划_促销

    SAP Customer Data Cloud在9月份推出了许多功能。如果你错过了这些,下面是我们9月份发布的几个亮点。 与苹果公司登录:苹果公司已经发布了使用苹果ID登录应用程序的选项。他们甚至规...

  • 消息队列_马云御任阿里巴巴_年度促销 消息队列_马云御任阿里巴巴_年度促销

    本周在拉斯维加斯TechEd看到的创新给我留下了非常深刻的印象。今年似乎出现了比过去更多的业务倾斜。主要的宣布是我们可以通过业务技术平台扩展SAP应用程序 HANA云服务(HCS)是业...