当前位置:主页 > 云通信 > 正文

CDN_购买_人工智能技术及应用

时间:2021-04-09 08:33 来源:埃里克云 编辑:埃里克云

核心提示

在适当的时间收集正确的数据,以诊断应用程序生命周期中的性能不稳定时期,这一点至关重要。Kubernetes增加了这个任务的复杂性,同时增加了现代应用程序的可靠性和正常运行时间...

CDN_购买_人工智能技术及应用

在适当的时间收集正确的数据,以诊断应用程序生命周期中的性能不稳定时期,这一点至关重要。Kubernetes增加了这个任务的复杂性,同时增加了现代应用程序的可靠性和正常运行时间。这篇文章讨论了解决Jenkins性能事件所需的Kubernetes关键概念,以及如何使用CloudBees支持工具和CloudBees CI的APM特性来解决这个问题文章:第一部分讨论使用APM工具解决性能问题的必要性,在现代平台上运行的Jenkins性能管理的特殊性和不同的数据捕获方法:传统vs。现代。部分2详细说明了在没有外部专用服务的情况下如何使用Jenkins自己构建的APM功能它。那个本系列文章的演示内容(脚本和管道代码)存储在cloudbees oss/pipeline home演示(tag/release:performance)数据驱动的Jenkins性能评估:应用程序性能管理(APM)工具"就像人类一样,Jenkins从定期健康检查中受益。如果你以后出现性能问题,它可以帮助你建立基线,有时甚至可以让你发现一个问题,并在问题变得严重之前把它消灭在萌芽状态。"(Kohsuke 2013,差不多一年前,Ryan Smith分析了企业JVM管理中CloudBees CI的JVM调优(主要关注垃圾收集器)和传统平台的Jenkins性能。对于现代平台来说,GC设置仍然有效,但是在容器环境的内存配置方面会进行一些调整。好的,如果我的Jenkins有"神奇的"JVM设置,那么它将在它的余生中快乐而健康地运行。哦,是的。。。这是不会发生的…Jenkins,作为生产环境中的任何应用程序,都会面临一系列潜在的威胁,这些威胁至少会影响以下一个指标:CPU loadMemory HeapDisk输入/输出(Jenkins将所有内容存储到文件系统:Jenkins_HOME)HTTP请求时间进入或路由控制器(因此可以比较入口/路由和后面的詹金斯主服务的性能它。那个为cloudbeesci列出的潜在线程列表也适用于上下文,但我会在该列表中添加其他元素,例如:不健康节点(请参阅诊断不正常Kubernetes节点的故障排除步骤)配置错误of request and limits,以及containersAPM报告的运行状况检查为Jenkins管理员和支持工程师之间的性能事件设置了一种通用的数据驱动语言。理想情况下,当Jenkins管理员希望支持团队调查特定事件(警报)时,他/她将共享违反规则的描述以及性能数据,以了解应用程序在健康状态下的行为以及在报告的停机(不健康)期间的表现。另一方面,如果唯一可用的信息是终端用户观察到的症状("几天前Jenkins用户界面运行缓慢,Jenkins没有像以前那样快速创建工作",…)在我们验证:应用程序了解JVM最佳实践(关于.md文件)应用程序不受CloudBees Jenkins Health Advisor发现的任何性能问题的影响报告编号为了了解工作量的情况(项目.md文件)在垃圾收集日志(nodes/master/logs/gc folder)报告的停机时间范围gceasy.io版慢请求(slow requests文件夹)越耗时。是否有死锁记录(死锁文件夹)?dmeg中是否存在内存异常主节点(节点/主节点/dmesg.txt文件文件)或jenkins日志(nodes/master/logs文件夹)?从基础架构到应用程序的度量提供程序级别:云供应商度量(例如GKE度量)Kubernetes metricsJenkins metrics强调一些度量相互重叠是很重要的。例如,在Kubernetes标签的帮助下,您可以使用Kubernetes度量来监视Jenkins容器的内存和CPU,而不需要使用Jenkins度量。另一方面,您不能使用Jenkins度量来监视磁盘输入/输出度量;您必须在基础结构中监视它们水平。监控metricsKubernetes服务供应商提供他们自己的解决方案来监控现成的Kubernetes指标。例如,googlekubernetes引擎提供了一组监控工具(由Google云监控提供支持)是:与数据狗(推送服务)。也可以通过启用JXM代理来配置它,避免Jenkins JVM(CloudBees CI示例)Prometheus(pull-from-service)的开销。它与Grafana for visualization结合使用,Grafana为Jenkins性能提供了一个内置仪表盘列表注意:Jenkins度量可以与其他度量结合使用提供者。詹金斯自建功能使用Java Melody报告CloudBees监控(专有)进行报警图1:Jenkins的安装监视插件数。数据提取自统计.詹金斯.io对于2019年6月和2020年5月,KubernetesLet的特殊性在本节开始时说CloudBees CI是在企业中在Kubernetes部署Jenkins的标准方法水平。大小正确的节点池来支持容器工作负载Kubernetes集群的计算能力是由集群的节点(物理或虚拟机)定义;调度程序将pod部署在满足其容器资源需求的指定节点上;容器化应用程序在吊舱。一次您的母版符合母版尺寸规格,将autoscaling(例如在GKE中)与其他策略(如污点容忍或节点亲和力)结合使用是确保容器不会耗尽资源的方法。容器规范:资源请求和限制以及健康检查容器的请求和限制定义是Kubernetes用来控制资源的机制:CPU和内存。请求是容器保证得到的。如果一个容器请求一个资源,Kubernetes只会把它安排在可以给它这个资源的节点上。限制,另一方面,确保容器永远不会超过某个值。容器只允许上升到极限,然后就可以了受限.CPU被认为是一种"可压缩"资源。如果你的应用程序开始达到你的CPU限制,Kubernetes就会开始限制你的容器。这意味着CPU将被人为地限制,给你的应用带来潜在的更糟糕的性能!然而,它不会被终止或驱逐。在这种情况下,添加一个liveness探针可以确保应用程序的正常运行时间,因为Kubernetes在检测到应用程序不再提供请求时会重新启动有问题的pod。图2:Jenkins吊舱的Kubernetes事件示例,该事件与来自失败的活跃性问题的kill信号有关,内存不能被压缩。因为没有办法限制内存使用,如果一个容器超过了它的内存限制,它将被终止:SIGKILL(Kubernetes OOM kill)。图3:Kubernetes上一个状态和Jenkins pod事件的示例,该pod与一个OOM killData捕获有关,用于排除Jenkins性能意外错误地解决性能问题需要一系列串联的过程:根据问题获取数据分析,以建立基于证据的假设应用缓解测量。之后应用建议的修复程序,监视实例行为以评估(反馈)应用程序的稳定性。如果仍然不稳定,则重复上述步骤再说一遍。一般来说说来,数据采集的黄金法则是:什么?获取正确的数据。CloudBees支持人员已经记录了一系列文章,以收集最少的数据,以便在我们的"必需数据"部分中开始对不同主题进行故障排除。在这篇文章中,我们关注的是CPU和内存问题。自从CloudBees发布cbsupport CLI,数据捕获过程将从手动步骤列表移动到一个单命令自动收集何时?"在正确的时刻,问题就暴露出来了"——如果您是CloudBees的客户,那么如果您已经打开了一个性能案例,您就会熟悉这句话:)。基本上,有两种方法可以看出詹金斯的性能不稳定性:传统的和现代的方法。传统的方法:在服务中断期间,CloudBees客户打开一个紧急案例,联系支持人员报告生产环境中的Jenkins服务中断。这种方法是传统平台上CloudBees CI的标准,但在现代平台上,当Jenkins容器保持运行状态并不断重新启动时,这种方法也很常见。然后开发人员支持工程师(DSE)帮助Jenkins管理员快速进行数据捕获,在使用所需的数据性能或所需的数据内存重新启动Jenkins服务器之前。暂时增加探测超时或内存限制可能会发现问题的根本原因背景图4: 表示故障排除流程的图表传统的接近并行,我们希望监控受影响的詹金斯吊舱(例如cjoc-0)在大修期间的资源消耗。希望有一个APM服务可以监视Jenkins容器,但是如果不是这样呢?我们需要通过命令来完成库贝克特线通过运行一个基于kubectl top的脚本来处理节点、pod和容器(demo:kubectl_监控.sh). 此外,监视节点(kubectl get nodes--watch)和pod(kubectl get pods-n cje support general--watch)的状态推荐。一次通过ssh进入cjoc-0所在的节点运行:docker:docker statslinux htop或top(如果前面的选项都不可用)现代方法:在资源消耗高峰期间

  • 企业云_哪里买_大数据网站 企业云_哪里买_大数据网站

    Delphix最近与AWS合作,帮助人们和团队加快并确保迁移到业界领先的Amazon Web服务云平台。AWS市场上的Delphix结合了AWS,加快了重要的迁移项目,并将时间从几周、几个月缩短到几天。客...

  • 云存储服务器_网站_云存储文件上传 云存储服务器_网站_云存储文件上传

    数据操作帮助人们与数据连接的方式因技术、用户和用例的不同而有很大差异。例如,数据民主化一直是分析界的话题,专注于为非技术用户提供回答关键问题和推动业务新见解所需...

  • 带宽和网速的关系_如何租用_工业大数据 带宽和网速的关系_如何租用_工业大数据

    在大多数人可能会做噩梦,梦到上班时忘了穿裤子,数据库管理员(DBA)的噩梦围绕着出现在工作中,被告知生产系统出现严重故障或其他高影响情况,而完全不知道。监控和警觉是...

  • 阿里服务器_如何选_物联网开发套件 阿里服务器_如何选_物联网开发套件

    几天前,在旧金山的纳斯达克中心,我见到了首席信息官Ken Piddington先生,他也是首席信息官的执行顾问。Ken说:"我和首席信息官和IT部门的首要任务是数据转换。"事实上,他经常听...

  • 阿里服务器_阿里云_国内物联网操作系统 阿里服务器_阿里云_国内物联网操作系统

    "对创新的需求正在增长,而且增长迅速,"埃森哲的吉滕德拉·卡瓦特卡尔(Jitendra Kavathekar)最近在旧金山举行的Delphix数据活动上评论道我们需要将人们与技术联系起来,推动全球的...

  • <strong>香港cn2服务器_什么是_大数据分析软件有</strong> 香港cn2服务器_什么是_大数据分析软件有

    数据的使用应该是无摩擦的,让数据消费者能够看到和访问所有版本的授权数据,而不必考虑位置、云平台或存储供应商。为了确保这些能力,企业实施解决方案,在管理数据的运营...

  • 数据云_怎么购买_云服务器哪便宜 数据云_怎么购买_云服务器哪便宜

    上周,我们的一个主要合作伙伴给我发了一封信,帮助他了解在Oracle和SQL Server上实现Delphix的方式之间的差异。如果您不熟悉Delphix动态数据平台(DDP),那么在您阅读完Oracle的支持和...

  • 负载均衡_如何租用_人工智能用的什么技 负载均衡_如何租用_人工智能用的什么技

    德尔菲斯工程和支持是非常了不起的人。他们继续寻求解决方案,不管需要多少时间,也不管他们面临支持异构环境、硬件配置和客户需求的复杂挑战。这篇文章是为了支持我们的团...

  • 大宽带服务器_海外_关系型数据库和非关 大宽带服务器_海外_关系型数据库和非关

    大家好!我又回到了"演示马鞍"上,来展示将数据从一个云复制到另一个云是多么容易。数据摩擦比比皆是,很少有地方像云迁移项目那样感受到数据摩擦。将数据传输到云中可能是一...