当前位置:主页 > 物联网IoT > 正文

CDN_怎么使用代理服务器_最新活动

时间:2021-05-04 15:09 来源:埃里克云 编辑:埃里克云

核心提示

这是一个系列的博客,我们将在这里描述基于spring引导的应用程序,它是spring框架的一个扩展,通过删除spring的大部分样板代码和配置,帮助开发人员快速构建简单的基于web的应用程...

这是一个系列的博客,我们将在这里描述基于spring引导的应用程序,它是spring框架的一个扩展,通过删除spring的大部分样板代码和配置,帮助开发人员快速构建简单的基于web的应用程序,代码更少。在这里,我们可以将json转换为parquet格式,parquet的构建支持非常高效的压缩和编码方案。多个项目已经证明了对数据应用正确的压缩和编码方案对性能的影响。Parquet允许在每列级别指定压缩方案,并且经过未来验证,允许在发明和实现时添加更多编码。下面的链接

详细描述了拼花地板的格式https://parquet.apache.org/documentation/latest/

https://en.wikipedia.org/wiki/Apache\u Parquet

以下是博客系列

第1部分:Spring Boot rest API实现,用于将Json格式转换为parquet格式第2部分:RESTAPI实现从Json转换到OCR(),CSV文件第3部分:将拼花、orc、csv和文本文件存储到AWS S3 bucket

可以使用Spring初始化器创建基于maven的Spring boot web项目,在依赖项部分,选择Spring web starter、Spring dev tools、Spring security等。这里强制依赖项是Spring web starter来构建restful API,用于本地开发的开发工具和其他工具是可选的。但是,您可以根据自己的需求添加依赖项。下面的链接

Spring boot hello world web application中提到了一种逐步创建web应用程序的方法一步一步的Spring boot应用程序

项目快照如下所示

在使用Spring Initializer创建项目时,需要添加以下库以及添加的Spring boot依赖项,如上图

中所示,springboot和apachespark库都被提到了。

projectlombok是一个Java库工具,用于在开发过程中最小化样板代码和节省时间。毫无疑问,Java是一种伟大的语言,但最近,它受到了社区的批评,原因之一是冗长。它生成代码,例如getter、setter和toString,IDE只在源代码中生成代码,而Lombok直接在".class"文件中生成代码。它是开发人员加速开发的有用工具之一。要下载库,请参阅链接。但是,要配置和了解更多关于Lombok库的信息,请参阅下面的链接

Lombok api的使用示例eclipse中Lombok jar的配置

Lombok依赖关系在下面提到

@Data:它为所有字段生成getter,一个有用的toString方法,以及检查所有非瞬态字段的hashCode和equals实现。还会为所有非最终字段生成setter,以及构造函数。

我们知道,在Spring boot中,基于应用程序是注释驱动的应用程序,因此,我们只需要如下所示对类进行注释,如

@RequestMapping("/toparquet"):使用此注释将web请求映射到具有灵活方法签名的请求处理类中的方法。

@RestController:使用此注释将类定义为rest端点类。类似地,其他的注解如GetMapping,PostMapping,RequestStatus等

@Slf4j它帮助lombok生成一个logger字段,我们可以很容易地记录所有的日志

在从json对象到parquet转换之前,让我们先了解parquet文件格式。apacheparquet是一种自描述的数据格式,它将模式或结构嵌入到数据本身中。它是以列为导向的二进制数据,每一列的值都被组织成相邻的,从而实现更好的压缩。它特别适用于从"宽"(有许多列)表中读取特定列的查询,因为只读取所需的列,并且IO最小化。当我们在处理大数据时,存储此类数据所需的成本更高(Hadoop冗余存储数据,即每个文件有3个副本以实现容错),同时处理数据的存储成本还包括CPU、网络IO等成本。随着数据的增加,处理和存储的成本也随之增加。Parquet是大数据的选择,因为它在存储和处理方面既能满足需求,又能提高效率和性能。这将产生一个优化查询性能和最小化I/O的文件。具体来说,它具有以下特点:

Apache Parquet是面向列的,与基于行的CSV相比,它的设计带来了高效的数据列存储apacheparquet是从头开始构建的,它考虑了复杂的嵌套数据结构apacheparquet是为支持非常高效的压缩和编码方案而构建的(参见googlesnappy)apacheparquet允许降低数据文件的存储成本,并使用amazonathena、Redshift Spectrum、BigQuery和Azure datalakes等无服务器技术最大限度地提高查询数据的效率。在Apache软件基金会的许可下,可用于任何项目。"拼图""大数据"协会可能给人的印象是,格式仅限于特定的用例。由于Parquet已经走出了复杂Hadoop大数据解决方案的阴影

要了解更多关于Parquet文件格式的信息,请参阅下面的链接

Apache Parquet wikiApache Parquet文档

这里我们使用spark库将json数据转换为Parquet格式,使用该库的主要优点是提供任何形式的复杂json格式,它会将其转换为Parquet,但是还有其他库与avro Parquet库做同样的事情,但是在这种情况下,如果json结构是泛型的或者嵌套到3级以上,那么在这种情况下它将无法转换它。在这种情况下,我们需要通过读取第一组记录来创建parquet模式,然后再将其转换为parquet格式(我将在以后的博客中展示),在spark库方法中,它也首先读取模式,因为在任何情况下,如果我们需要将json或文本文件转换为任何其他格式的parquet格式,但这里我们不需要预先读取记录,只需扫描输入数据和库,然后自己创建模式,然后将输入数据转换为parquet格式。

  • 企业网站_新白娘子传奇百度云_折扣 企业网站_新白娘子传奇百度云_折扣

    你好,社区, BSI TaxFactory和TaxFactory SaaS发布版本11.0可用。 在我们的合作伙伴BSI将其产品/产品BSI TaxFactory 10.0的维护延长至2021年4月30日之后。SAP还决定在2021年4月30日之前为BSI TaxFactor...

  • 消息队列_华云服务器_限量秒杀 消息队列_华云服务器_限量秒杀

    啊。我已经很久没在这里写博客了-对不起? 但这是一个很好的机会让我重新上马,这是我与SAP TechEd Barcelona的SAP社区负责人Craig Cmehil的"无采访视图"(无采访视图就像一次真正的采访...

  • <strong>域名备案_查看数据库密码_怎么样</strong> 域名备案_查看数据库密码_怎么样

    在本文中,我们将看到如何在sapcloudfoundry环境中为Spring启动应用程序配置OAuth2授权。但是在这样做之前,让我们先熟悉一下这个实现中涉及的几个重要概念。 简介 OAuth2–是一个授权框...

  • <strong>MySQL数据库_网站cdn_多少钱</strong> MySQL数据库_网站cdn_多少钱

    您已经听说了SAP Graph在SAP TechEd Las Vegas 2019发布的消息。微软Graph也非常棒,非常相似(哲学上+技术上),它不仅非常有用,而且我会给你一个微软Graph的工作示例/教程,让你了解它,...

  • 京东云_网站建设中页面_学生机 京东云_网站建设中页面_学生机

    在可预见的未来,向S/4HANA过渡的公司特定规划已将每个SAP客户列入其议程。S/4HANA实施项目越来越近了,因此也有一个问题:在技术和开发层面必须做哪些准备?正是这个主题是"S/4H...

  • <strong>天翼云_网站服务器失去响应怎么回事_代</strong> 天翼云_网站服务器失去响应怎么回事_代

    大家好, 欢迎来到一个关于用户浏览器没有启用JavaScript的用户体验主题的简短博客。 考虑到1%的设计理念,如果我们考虑那些禁用或不可用JavaScript的浏览器的用户(出于"天知道为什...

  • <strong>对象存储_网站建设外贸_速度快</strong> 对象存储_网站建设外贸_速度快

    在本文中,我将展示如何通过负载平衡器为我们的生产数据库构建一个具有高可用性的HANA驾驶舱。我建议您开始阅读SAP指南HowTo:High Availability for SAP HANA cockpit using SAP HANA system replicat...

  • <strong>中间件_重庆网站建设策划_促销</strong> 中间件_重庆网站建设策划_促销

    SAP Customer Data Cloud在9月份推出了许多功能。如果你错过了这些,下面是我们9月份发布的几个亮点。 与苹果公司登录:苹果公司已经发布了使用苹果ID登录应用程序的选项。他们甚至规...

  • 消息队列_马云御任阿里巴巴_年度促销 消息队列_马云御任阿里巴巴_年度促销

    本周在拉斯维加斯TechEd看到的创新给我留下了非常深刻的印象。今年似乎出现了比过去更多的业务倾斜。主要的宣布是我们可以通过业务技术平台扩展SAP应用程序 HANA云服务(HCS)是业...