当前位置:主页 > 云数据库 > 正文

数据库软件_表较好的_大数据的广泛应用

时间:2021-02-24 09:40 来源:埃里克云 编辑:埃里克云

核心提示

绩效至关重要。当你决定公司的发展方向时,你不需要等待查询加载。性能不仅仅取决于查询的运行速度,还取决于可以同时运行多少个查询。随着越来越多的用户和部门加入到平台...

数据库软件_表较好的_大数据的广泛应用

绩效至关重要。当你决定公司的发展方向时,你不需要等待查询加载。性能不仅仅取决于查询的运行速度,还取决于可以同时运行多少个查询。随着越来越多的用户和部门加入到平台上,那些在单个部门为云数据团队适度部署Sisense的客户通常会增长到初始用户数的100倍。增加100倍也会带来类似的查询量。当客户将数据提供给更多用户时,很难保证查询性能。这就是为什么我们选择在我们最近发布的数据引擎中包括雪花:雪花的自动并发扩展使增加数据仓库前的计算变得容易。这确保了我们的客户可以在一天中根据他们的用户数(和查询量)动态地扩展查询并发性。我们测量了单个集群中典型分析查询的吞吐量,包括自动缩放和不自动缩放,以了解雪花的查询并发缩放的工作情况:我们的测试表明,雪花的自动并发扩展将整体并发查询性能提高了84%。将其放在上下文中,这意味着一个曾经运行超过3分钟的查询现在可以在大约33秒内完成。什么是自动并发扩展?雪花多集群仓库由一个或多个执行查询的服务器集群组成。对于给定的仓库,雪花客户可以设置要分配给该仓库的最小和最大计算集群数量。在自动缩放模式下,雪花将根据发送到仓库的查询量启动和停止这些集群,在需要时增加计算能力,不需要时降低计算能力。有什么好处?在传统的数据仓库中,集群既是计算资源又是数据存储。因为您的数据已经存在于计算基础设施中,所以不需要数据传输。因此,与单独存储数据相比,单个查询的执行速度通常更快。传统仓库的一个限制是这些资源是固定的,因此无论您运行的是一个查询还是100个查询,都会使用相同的资源。与传统仓库不同的是,雪花是为云从头开始构建的,它使计算和存储能够独立工作。使用雪花,您可以立即手动或自动添加和调整仓库大小。在晚上调度ETL作业以避免白天与BI工作负载争用的日子已经一去不复返了。现在您可以使用多个计算集群(虚拟仓库)分离这些工作负载并并行运行它们。使用自动缩放模式可以使这更容易。在这种模式下,雪花将根据查询工作负载自动添加和删除计算集群。由于这种扩展会立即发生,无论是向上还是向下,客户只在需要时使用资源,而在查询工作负载较低时停止支付资源费用。我们测试了雪花,以了解其缩放模型的好处。试驾我们想看看雪花是如何处理同时发出的越来越多的查询的。我们使用了用于Python的Snowflake连接器来自动化这个基准测试。导入操作系统进口雪花。连接器连接=雪花。连接器。连接(用户=操作系统环境['SNOWFLAKE_USER'],密码=操作系统环境['SNOWFLAKE_PW'],账户=操作系统环境['SNOWFLAKE_ACC'],区域=操作系统环境['SNOWFLAKE_REG'],数据库=操作系统环境['SNOWFLAKE_DB'],仓库=操作系统环境['SNOWFLAKE_WH'],架构=操作系统环境['SNOWFLAKE_SCH'])在我们的测试中,我们使用了Snowflake的示例数据库Snowflake_sample_DATA。我们使用了10TB的样本集(TPCSD_SF10TCL),并选择了一个在集群上运行大约3秒的查询来模拟常见分析查询的运行时。选择计数(1)从网络返回其中wr_订单号%3=0年(当前时间戳)>0我们在查询中包含了当前的时间戳,以避免返回缓存的结果。由于我们正在测试性能,缓存的结果可能是作弊。然后我们建立了测试。我们使用1、2、4、8、16、32、64和128个查询同时查询仓库。因为雪花允许我们在1到10个簇之间进行缩放,所以我们想要从1个到10个来运行整个范围。代码如下:#设置仓库可用的最大集群数def set_max_集群(i):连接.cursor().执行("更改仓库"+操作系统环境['SNOWFLAKE_WH']+'"set min_cluster_count=1 max_cluster_count='+str(i))对于范围(1,11)内的num_clusters:设置最大簇(num_clusters)对于[2**x for x in range(0,8)]中的并发查询:对于并发查询中的查询数:连接.cursor().执行('从web返回中选择计数(1)'+'其中wr_订单号%3=0'+'和年份(当前时间戳)>0')除了一个小问题外,这是有效的。查询是按顺序发出的,而不是同时发出的!我们使用线程异步发出这些查询并保存结果:结果=[]类ConcurrentQuery(线程。线程):def\uu init_u(自身、总计、计数器、群集):线程。线程.\uu init_uu(自身)自动计数器=计数器自身总计=总计self.clusters公司=集群def运行(自身):当前=连接.cursor()开始时间=时间。时间()当前执行('选择计数(1)'+'从网络返回'+'其中wr_订单号%3=0'+'和年份(当前时间戳)>0')结束时间=时间。时间()结果.append({"群集":self.clusters公司,"总计":自身总计,"计数器":自动计数器,"开始时间":时间.strftime("%Y-%m-%dT%H:%m:%S",时间.本地时间(启动)),"执行时间":结束-开始,'查询'u id':当前状态})一旦我们被设置为运行多个线程来发出查询,我们就继续进行测试。对于范围(1,11)内的num_clusters:设置最大簇(num_clusters)时间。睡觉(60)#集群启动需要一些时间对于[2**x for x in range(0,8)]中的并发查询:线程=[]对于范围内的查询数(0,并发查询):thread=ConcurrentQuery(并发查询、查询、集群)线程.append(螺纹)对于内螺纹:线程启动()对于内螺纹:螺纹连接()df=熊猫.DataFrame(结果)df.to\U csv(结果/并发_测试.csv',索引=False)为了分析我们的结果,我们使用Sisense for Cloud Data Teams的便捷CSV importer来加载我们的两个输出文件(并发性_测试.csv)以及雪花查询日志的导出。结果我们有两个维度的数据:1)可用集群的数量和2)并发查询的数量。为了一次可视化所有这些结果,我们使用Sisense for Cloud Data Team的一键式R集成来构建一个方面网格。图书馆(tidyverse)库(ggplot2)库(重塑2)库(网格)库(gtable)df.m
  • <strong>云计算与大数据_个人_云计算数据中心方</strong> 云计算与大数据_个人_云计算数据中心方

    博客2018年在西森斯的许多方面都是令人兴奋的一年。从产品的角度来看,我们已经采取了重大措施来创造新的功能,我们的客户喜欢和市场要求。我们最兴奋的功能是什么?我很高兴...

  • <strong>对象云存储_哪个_云服务器系统</strong> 对象云存储_哪个_云服务器系统

    博客如果你曾经参加过现场拍卖,你知道为了赢得你想要的物品有一些策略。但网上拍卖呢?在我们的新形象!分析我们来看看7分钟eBay拍卖会上所有活动的数据。我们在Kaggle上找到的...

  • <strong>好用的云服务器_数据库_云数据是什么意</strong> 好用的云服务器_数据库_云数据是什么意

    博客2019年可能不是我们都说"仪表盘已经死亡"的一年,但嵌入式分析的趋势正在超越高尚的仪表盘和附加行动。这个联盟简化了活动,帮助用户轻松地做出更好的选择。我们在这里挖...

  • <strong>大数据云存储_香港_世界人工智能大会</strong> 大数据云存储_香港_世界人工智能大会

    博客数据专业人员的任务通常是寻找数据集中变量之间的相关性,以确定一个变量(x)是否可以成为另一个变量(y)的强预测因子。对于那些不熟悉这种分析的人来说,一个很好的起...

  • <strong>网络存储_海外_人工智能的服务</strong> 网络存储_海外_人工智能的服务

    博客21世纪的分析和BI趋势表明,各行业的大数据越来越重要。而且,随着医疗软件存储的有关患者护理和医生绩效的数据量迅速增加,医疗保健行业可以从该软件中采用嵌入式分析解...

  • 大宽带服务器_怎么购买_怎样登陆云主机 大宽带服务器_怎么购买_怎样登陆云主机

    你已经决定投资商业智能(BI)软件了。现在是时候做你的尽职调查,开始研究,并选择一个分析平台,以满足你的组织的全面和独特的业务需求。好消息是:你有几十个网站在你的指...

  • <strong>cn2服务器_关于_orcale数据库</strong> cn2服务器_关于_orcale数据库

    博客当我开始我的商业分析师生涯时,我的核心职责是报告。当时,这意味着要在Excel中使用pivot表和vlookups做大量工作,打印出结果并将它们邮寄给各个业务部门。这是一个手工的、...

  • 香港cn2服务器__手机是人工智能吗 香港cn2服务器__手机是人工智能吗

    博客Marc Andreessen说"软件正在吞噬世界",但今天,主导全球的是移动和商业智能和分析。全球超过一半的数据流通过移动设备传输,用户喜欢应用程序而不是移动浏览器,这是三比一的...

  • <strong>大数据和云计算__人工智能有什么产品</strong> 大数据和云计算__人工智能有什么产品

    博客正确的可视化可以给你的分析应用程序或仪表板一拳,使其真正伟大。视觉化与权力是你的目的地可视化最佳实践,将使你的工作真正脱颖而出。无论你的公司在哪个行业经营,...