当前位置:主页 > 混合云 > 正文

云服务器_关于_人工智能学的是什么

时间:2021-02-19 23:04 来源:埃里克云 编辑:埃里克云

核心提示

曾经不得不从一些过时的软件中手工编辑满是灰尘、凌乱不堪、年代久远的信息吗?我曾经在一家公司工作,那家公司把文件存放在异地长达60年之久。资料已编入文件表索引。大多数...

云服务器_关于_人工智能学的是什么

曾经不得不从一些过时的软件中手工编辑满是灰尘、凌乱不堪、年代久远的信息吗?我曾经在一家公司工作,那家公司把文件存放在异地长达60年之久。资料已编入文件表索引。大多数记录都有一个箱号、存储日期、存储供应商收据号以及内容的大致概念。大多数,请注意。60多年来,这个名单变得……一团糟。仓储合同几经变更,因此箱码和供应商收据随时间而变化。再加上随时间累积起来的随机错误,你就一团糟了。我的工作是把所有的东西都转给另一个承包商,这意味着清理成千上万的记录,以便更好地处理新供应商的网上库存。这是一件相当麻烦的事,我们很多人在试图组织数据时都会遇到这种麻烦。好消息是,如果你能把你凌乱的数据放入电子表格,你就可以清理并重新格式化它。我最喜欢的工具是OpenRefine,它的专长是"协调"或"规范化"——可以很容易地找到打字错误、短语的变化、格式错误、多余的空格以及其他难以在一行行行信息中发现的东西。什么是OpenRefine?OpenRefine简单地说,它本身就是"处理混乱数据的强大工具"。最初发布于2010年,名为"FreebaseGridWorks",后来被搜索巨头收购后被称为"谷歌精炼"。今天,它是一个社区运行的、开源的项目,用来完善你的数据。对你来说,这可能意味着很多事情。您的销售团队可能希望导出旧的商店数据,重新组织,并将其导入到新的电子商务应用程序中。你的会计人员可能有多年前的遗留数据。你的公关人员可以有多个电子邮件列表,从过去的活动,你想合并,修改,或消除重复。也许你的调查结果很混乱,你的应用程序导出很混乱,或者你的分析数据需要来自多个来源。OpenRefine是特别考虑到那些类型的批量操作而构建的。它可能只是你最终完成你一直拖延的数据项目所需要的。OpenRefine入门开始很容易。只需下载OpenRefine它可以在Windows、Mac和Linux上运行并启动程序。它会打开一个类似于其他Google应用的浏览器标签,并要求你创建一个项目,或者打开一个你已经开始的项目。OpenRefine需要一些数据才能使用,它可以以电子表格格式打开任何数据:CSV、XLS,甚至是googlesheets在线电子表格。它还可以接受XML和JSON文件,如果这是您的难题。OpenRefine可以直接从web导入电子表格文件让我们开始一个新项目吧。这个练习将使用一组来自安大略省政府的公开数据,这些数据和许多公共数据一样,有点混乱。让我们来谈一个我最喜欢的话题:啤酒。复制XLSX文件的链接,该文件包含有关安大略省微酿酒厂和品牌的详细信息。切换到OpenRefine选项卡,启动一个新项目,选择Web地址选项,然后粘贴电子表格链接。一旦您输入了一个数据集,OpenRefine就会生成一个预览,以确保它正确显示。您可以进行一些初步清理,删除空行,将第一行设置为具有列名的标题,或者将列转换为特定的数据类型(日期、整数等)。当你把所有的数据都正确的显示在屏幕上时,你就可以正确地点击屏幕。首先,您会注意到OpenRefine并不像一个带有长行列表的电子表格那样显示数据。相反,它一次最多显示50行,基本上只是一个预览,让您可以思考正在使用什么。如果需要的话,你可以翻页浏览你的数据,但我认为你很快就会习惯于不再那么不知所措了。使用OpenRefine Facets清理数据第一步是学习面。它们精确地显示了列中使用了哪些值,因此您可以在本应相同的内容中找到拼写错误或变体。让我们从制造商的名称开始。单击标题旁边的下拉按钮,选择方面,然后选择文本方面。每个数据集中都会显示一个显示次数的列:例如,我们可以看到,Big Rig酿酒厂有13种不同的啤酒;Big Rock酿酒厂有6种不同的啤酒。我们已经可以看到一些混乱的数据-"黑天鹅酿酒公司"和"黑天鹅酿酒公司公司"是同一家公司,但在这个电子表格中的名称略有不同。要解决此问题,请将鼠标悬停在要更改的名称上,单击"编辑",然后键入新名称。单击Apply,它将自动编辑数据集中所有匹配的条目。让我们通过自动识别所有相似的方面并通过聚类数据来合并它们,从而加快这个过程。单击facet显示顶部的Cluster按钮,您将看到OpenRefine标识的所有类似条目:对于其中的一些,它只是一个额外的空间(如"Square Timber Brewing Company"的末尾)或一个额外的逗号(如Blood Brothers Brewing),或是capslock的自由使用。正如您在"Bevin palmater"条目中看到的,OpenRefine还标识出无序的单词。选中合并框中的任何要修复的内容。如果您不喜欢建议的新值,例如,NITA BEER建议的大写名称,您只需单击小写选项,它将更改该字段。如果你不喜欢这些选项,只需输入你喜欢的名字。单击"合并选定项并重新群集"以执行另一项检查。当检查没有找到结果时,尝试另一个集群方法来查找更多(您应该找到"Walkerville"和"Walkerville")。这是数据挖掘,但你不必学习先进的数据挖掘理论就可以得到结果:只需点击所有选项。您将开始看到误报(例如,"Bell City"不是"River City"),您可以忽略它。清除之前的空格和一些常用的工具也可以用来清理文本。我们还可以通过将整个列转换为Titlecase来去掉所有大写的啤酒厂名称。再次单击该列的下拉菜单,转到"编辑单元格",并通读所有可能的选项。在OpenRefine中自动分类数据下一步是对所有这些数据做一些聪明的事情。假设这些啤酒是我们的产品数据,我们想在我们的目录中增加啤酒的种类。我们不想手动标记每个条目,所以让我们通过从啤酒名称中识别啤酒类型来节省一些时间。我们可以使用自定义文本方面快速检查一种啤酒。我们将查找包含"Porter"的所有单元格值(这也是区分大小写的,但是现在我们已经将所有内容放入titlecase中,大写的P应该可以捕捉所有内容)。"制造商品牌"列上的自定义文本面将打开此窗口,我们在其中输入过滤器:值。包含("搬运工")这个函数返回true和false,true表示列表中有25个啤酒商是搬运工。(也有79家啤酒厂没有任何实际啤酒(空白)类别,但我们暂时忽略它。)当您想操作电子表格的一个子集而不必删除其余部分或保持焦点行处于选中状态时,这些过滤器非常有用。您可以应用一个过滤器,执行一系列操作,然后稍后将其删除。OpenRefine甚至包括一些格式化数据的常用方法,例如标准化日期格式或将"Firstname Lastname"转换为"Lastname,Firstname"让我们用它把我们的数据转换成有用的东西。我们将在"制造商品牌"列的基础上添加一个新列,使用文本分析来猜测这是什么类型的啤酒。这并不是对所有的条目都有效,但是对于名字中有"IPA"、"lager"、"stout"、"lime"、"red"、"wheat"等的啤酒,我们会取得一些成功。与所有批量数据工作一样,有时会发生错误。例如,在这个列表中有一种啤酒叫做"比胖波特",如果我们搜索"烈性啤酒",就会得到一个假阳性。记住这一点,并且总是留出时间进行质量控制!首先点击"制造商品牌"。选择编辑列,然后选择基于此列的创建列。为了寻找"lager"并在适用的情况下用"lager"替换整个Beer types值,我们使用if语句:如果(值。包含("Lager"),"Lager",值)如果这里的语句很简单:如果第一部分为真,则将整个值转换为"lager";否则,将单元格值替换为它自己(或者,什么也不做)。如果我们想同时对一大组啤酒类型进行分类,我们会在彼此内部嵌套一系列If语句。它看起来有点傻,但却能完成任务:如果(值。包含("Lager"),"Lager",如果(值。包含("IPA"),"IPA",如果(值。包含("小麦"),"小麦",如果(值。包含("Pilsner"),"Pilsner",如果(值。包含("棕色"),"棕色",如果(值。包含("科氏"),"科氏",如果(值。包含("Light"),"Light",如果(值。包含("红色"),"红色",如果(值。包含("英语"),"英语",如果(值。包含("粗壮"),"粗壮",如果(值。包含("搬运工","搬运工",价值观)))))))))))基本上,如果找不到"Lager",那么尝试"IPA",然后尝试"Wheat",然后尝试"Pilsner"等等。这不是标准的编程语法,但是可以完成任务。应用该转换,然后检查列的各个方面以查看我们的进度。在我们做的时候,让我们把结果清理干净。将"I.P.A."和"India Pale Ale"与"IPA"按上述步骤进行协调。还要记住,操作是按顺序进行的:在重新格式化"Pale Ale"之前,您需要先转换"India Pale Ale"。因为这些转换也区分大小写,所以在以后搜索"Pale Ale"时,转换为小写的"India Pale Ale"也会保护您的工作。通过一点分类,我们可以开始看到啤酒类型的传播

  • 大数据和云计算_分布式_大数据趋势 大数据和云计算_分布式_大数据趋势

    华盛顿州贝尔维尤,2018年9月13日消息——身份即服务(IDAS)的全球领导者Auth0今天宣布,它已被福布斯与Bessemer Venture Partners和Salesforce Ventures联合发布的《福布斯2018云100》(Forbes 20...

  • VPN 网关_海外_人工智能有前景吗 VPN 网关_海外_人工智能有前景吗

    8月21日,Facebook删除了600多个源自伊朗的账户、页面和群组。这些帐户在传播政治造谣,主要针对拉丁美洲和中东的用户。网络安全公司fireye最初向Facebook透露了一个名为"自由前线新闻...

  • cdn许可证代办_美国_哪家的云服务器安全 cdn许可证代办_美国_哪家的云服务器安全

    在2016年美国总统大选之前,据称俄罗斯黑客攻击希拉里·克林顿竞选团队和民主党全国委员会(Democratic National Committee),利用鱼叉钓鱼手段诱骗用户向欺诈网站提供用户名和密码。随...

  • 云储存服务_便宜的_怎样购买云主机 云储存服务_便宜的_怎样购买云主机

    Storybook是一个UI组件的开发环境。它允许我们浏览组件库,查看组件的不同状态,并交互式地开发和测试它们。Storybook运行在我们的应用程序之外;因此,我们可以独立地开发UI组件,...

  • 云存储多少钱一个月_如何选择_物联网的 云存储多少钱一个月_如何选择_物联网的

    在本文中,您将学习如何使用哈皮.js以及节点.js,同时使用Redis作为持久层。由于没有安全层就不可能发布API,因此您还将学习如何使用Auth0保护应用程序。如果需要,您可以在GitHub存...

  • <strong>cdn网站_哪个_云计算平台系统</strong> cdn网站_哪个_云计算平台系统

    当我还是个孩子的时候,我练习了8年的童子军,我学到了很多优秀的价值观,我的童子军经历帮助塑造了我的性格,使我成为一个更好的程序员。让我告诉你为什么。作为一名童子军...

  • 云计算数据中心_购买_人工智能发布会 云计算数据中心_购买_人工智能发布会

    在Auth0,我们都是关于开源的。作为一个企业,我们积极致力于开源并从中受益,在多个项目中拥有超过25000个明星。我们的社区通过直接获得建议和支持来支持这项计划,无论开发人...

  • 服务器采购_如何使用_物联网智能家居技 服务器采购_如何使用_物联网智能家居技

    Auth0将不同的数据存储用于不同的目的。我们有大量的数据集,用于为客户提供各种各样的用例和特性。不幸的是,在数据泄露越来越普遍的时代,选择和使用数据存储的一个关键方面...

  • nas网络存储服务器_如何选择_工业物联网 nas网络存储服务器_如何选择_工业物联网

    在构建应用程序时,必须确保注册服务或产品的用户是真实用户。通过使用Auth0,电子邮件验证服务是开箱即用的;然而,如果验证电子邮件根本不必发送,那岂不是更好?通过使用...