当前位置:主页 > 大数据 > 正文

cdn许可证_怎么选择_企业内容管理软件

时间:2021-02-23 09:42 来源:埃里克云 编辑:埃里克云

核心提示

博客每个人都想从他们的数据中获得更多,但如何做到这一点会让你挠头。我们的BI最佳实践揭开了分析世界的神秘面纱,并为您提供了可操作的操作指南。开始研究数据的最简单方法...

cdn许可证_怎么选择_企业内容管理软件

博客每个人都想从他们的数据中获得更多,但如何做到这一点会让你挠头。我们的BI最佳实践揭开了分析世界的神秘面纱,并为您提供了可操作的操作指南。开始研究数据的最简单方法之一是按相关维度聚合您感兴趣的度量。例如,假设你想了解公司的收入,你可以按国家、产品、时间等进行分析。在大多数情况下,这种分析可以产生一些见解,这些见解可以随后转化为商业行动。然而,如果翻译得不好,也会产生错误的结果。这是怎么发生的?好的数据怎么会导致错误的结论?让我们从一个例子开始。你在一家冰淇淋公司工作,这家公司即将推出一种全新的特别版口味。经过多次会议和讨论,最终选定了两种口味的饼干:生姜和糖曲奇。只选择一种口味生产。你们部门做了一个调查,询问100个人是否喜欢姜汁冰淇淋,100个不同的人是否喜欢糖曲奇的味道。结果如下:喜欢小心翼翼的糖厨师62/100=62%54/100=54%根据你的第一次分析,很明显,姜是赢家(62%>54%)。然而,为了进一步研究数据,您决定将喜欢的分布细分为男性和女性:喜欢姜糖厨师12/37=32.4%45/90=50%女性50/63=80.6%9/10=90%奇怪的事情发生了!从性别的角度来看,我们可以发现男性和女性都喜欢甜饼口味而不是生姜。那么,在按性别细分数据时,我们如何得到完全不同的结果呢?这是Simpon悖论的一个例子,这是一种统计现象,当数据被分组时,趋势会逆转或消失,当数据被组合起来时。1951年,统计学家爱德华辛普森(edwardh.Simpson)首次提出了这一概念(尽管之前不同的人提到了类似的影响)。在我们的例子中,当数据被分成两组时,我们可以说两组都喜欢甜饼口味。但当数据结合起来,我们的结论就反过来了,似乎生姜更可取解释辛普森悖论是时候引入一个新的统计术语了。潜伏变量(也称为混杂变量)是在实验/分析过程中未考虑的额外变量,可能导致错误的结论。在我们的例子中,两种效应结合在一起形成了悖论:与女性相比,男性不太喜欢这两种口味。当被问及冰淇淋口味时,男性可能比女性更挑剔?我们不知道。然而,这是一个潜在的变量,因为我们在分析数据时没有考虑到这个因素,另外,我们可以看到被调查的男性和女性的分布是不平衡的。在姜味调查中,37%的回答者是男性,63%是女性;而在甜饼调查中,90%是男性,只有10%是女性在我们的例子中,这两种效应结合在一起形成了悖论。更好的分析,更好的决策哪种口味才是真正的赢家?在我们的例子中,当我们考虑到潜伏变量时,很明显甜饼口味应该是赢家,因为男人和女人都喜欢它而不是姜。一般来说,不可能给出何时对数据进行分区或组合的经验法则。这要视情况而定。作为一个例子,我将介绍一个例子,从朱迪亚·珀尔的《为什么》一书中。一种有望降低心脏病发作风险的新药被分为两组进行试验。第一组(对照组)的参与者不使用药物,而第二组(治疗组)的参与者使用药物。结果显示了心脏病发作的人群比例:心脏病发作比例对照组(非药物)治疗组(药物)男性12/40=30%8/20=40%Female1/20=5%3/40=7.5%13/60=21.67%11/60=18.3%再次,我们在结果中看到了辛普森的悖论。综合这些数据,药物似乎可以降低心脏病发作的风险。另一方面,当研究结果按性别分组时,我们可以观察到,无论是男性还是女性,服用药物后心脏病发作的风险都会增加。"这种药似乎对女人不好,对男人不好,但对人有好处!"当然,这种说法没有道理。这个悖论可以通过更好地理解数据来解决——探索数据是如何产生的,并识别潜在的变量。这不是一个随机对照试验(RCT)实验,而是一个观察性研究,让人们决定是否服用药物。在这项研究中,很明显,女性更倾向于服用药物(⅔女性服用药物),而男性则不喜欢(只有⅓男性服用药物)。此外,总体而言,男性患心脏病的风险更大。性别影响目标变量(心脏病发作)和服用药物的决定。在这种情况下,按性别分析数据是正确的。这种药实际上对女人不好,对男人不好,对人也不好现在,让我们检查一个稍微不同的情况,在这种情况下,分组数据会导致不正确的结果。继续前面的例子,假设血压是心脏病发作的原因,而试验药物的目的是降低血压。研究人员想检查这种药物是否也能降低心脏病发作的风险。他们测量了参与者的血压以及他们是否有心脏病发作。所有参与者开始时都有高血压。心脏病发作比例对照组(不用药)治疗组(药物)高血压12/40=30%8/20=40%低血压1/20=5%3/40=7.5%13/60=21.67%11/60=18.3%请注意,这些数字与上一个示例中的数字完全相同。然而,既然血压不影响服药的决定,那么关注综合数据是正确的。我们可以看到药物降低了治疗组参与者的血压。这也降低了他们心脏病发作的风险。为了更好地理解何时应该对数据进行分组,您应该熟悉因果推理。如果你没有时间读"为什么书",你可以参考数据科学辛普森悖论有多普遍?2009年,研究人员提出,辛普森悖论可能比人们通常认为的更经常发生。(参见"辛普森悖论的可能性有多大?")他们发现,在使用均匀分布随机数据模拟的案例中,1.67%的案例出现了悖论。另一项研究表明,通过实验研究,这种悖论可能会发生,而且人们往往很难认识到它。(见Kievit、Rogier等人)处理关联中的辛普森悖论当两个变量在一个方向(正/负)上有关联时,也会出现辛普森悖论,但当变量被维度打破时,方向相反。Jon Wayland的一篇博客文章展示了一个非常好的例子:教师调查了学生考前学习时间对考试成绩的影响。研究结果非常令人惊讶,表明学习时间和成绩之间呈极强的负相关(-0.7981)(学生学习越少,他们在考试中的得分就越高)。当数据被打破的过程,相关性逆转,我们可以看到,投入更多的时间学习是值得的努力! 在这种情况下,课程难度是一个潜在的变量——它影响考试结果和准备所需的小时数。未雨绸缪辛普森悖论,当它被忽视时,会导致错误的结论和错误的决定。在分析你的数据时,注意这个现象是很重要的。如果你想做出更明智的数据驱动决策,了解你的数据,理解它是如何生成的,以及处理混杂的变量都是至关重要的!Ayelet Arditi是Sisense人工智能研究团队的数据科学家,不断改进平台的数据和分析能力,使用户能够构建和使用人工智能应用程序,用于增强分析、自动数据准备和对话式数据探索。标签:混淆变量|数据探索|数据驱动决策|潜伏变量|数学|辛普森悖论

  • 大数据和云计算_分布式_大数据趋势 大数据和云计算_分布式_大数据趋势

    华盛顿州贝尔维尤,2018年9月13日消息——身份即服务(IDAS)的全球领导者Auth0今天宣布,它已被福布斯与Bessemer Venture Partners和Salesforce Ventures联合发布的《福布斯2018云100》(Forbes 20...

  • VPN 网关_海外_人工智能有前景吗 VPN 网关_海外_人工智能有前景吗

    8月21日,Facebook删除了600多个源自伊朗的账户、页面和群组。这些帐户在传播政治造谣,主要针对拉丁美洲和中东的用户。网络安全公司fireye最初向Facebook透露了一个名为"自由前线新闻...

  • cdn许可证代办_美国_哪家的云服务器安全 cdn许可证代办_美国_哪家的云服务器安全

    在2016年美国总统大选之前,据称俄罗斯黑客攻击希拉里·克林顿竞选团队和民主党全国委员会(Democratic National Committee),利用鱼叉钓鱼手段诱骗用户向欺诈网站提供用户名和密码。随...

  • 云储存服务_便宜的_怎样购买云主机 云储存服务_便宜的_怎样购买云主机

    Storybook是一个UI组件的开发环境。它允许我们浏览组件库,查看组件的不同状态,并交互式地开发和测试它们。Storybook运行在我们的应用程序之外;因此,我们可以独立地开发UI组件,...

  • 云存储多少钱一个月_如何选择_物联网的 云存储多少钱一个月_如何选择_物联网的

    在本文中,您将学习如何使用哈皮.js以及节点.js,同时使用Redis作为持久层。由于没有安全层就不可能发布API,因此您还将学习如何使用Auth0保护应用程序。如果需要,您可以在GitHub存...

  • <strong>cdn网站_哪个_云计算平台系统</strong> cdn网站_哪个_云计算平台系统

    当我还是个孩子的时候,我练习了8年的童子军,我学到了很多优秀的价值观,我的童子军经历帮助塑造了我的性格,使我成为一个更好的程序员。让我告诉你为什么。作为一名童子军...

  • 云计算数据中心_购买_人工智能发布会 云计算数据中心_购买_人工智能发布会

    在Auth0,我们都是关于开源的。作为一个企业,我们积极致力于开源并从中受益,在多个项目中拥有超过25000个明星。我们的社区通过直接获得建议和支持来支持这项计划,无论开发人...

  • 服务器采购_如何使用_物联网智能家居技 服务器采购_如何使用_物联网智能家居技

    Auth0将不同的数据存储用于不同的目的。我们有大量的数据集,用于为客户提供各种各样的用例和特性。不幸的是,在数据泄露越来越普遍的时代,选择和使用数据存储的一个关键方面...

  • nas网络存储服务器_如何选择_工业物联网 nas网络存储服务器_如何选择_工业物联网

    在构建应用程序时,必须确保注册服务或产品的用户是真实用户。通过使用Auth0,电子邮件验证服务是开箱即用的;然而,如果验证电子邮件根本不必发送,那岂不是更好?通过使用...