当前位置:主页 > 大数据 > 正文

私有云存储_关于_中国人工智能公司排名

时间:2021-04-09 03:15 来源:埃里克云 编辑:埃里克云

核心提示

在Delphix的第一周,我被要求参加一个客户的支持电话。该客户最近已将其4 vCPU Delphix VM(运行在VMware ESX上)升级到新的Delphix版本,并添加了两个额外的vCPU。升级后,虚拟机将不再启...

私有云存储_关于_中国人工智能公司排名

在Delphix的第一周,我被要求参加一个客户的支持电话。该客户最近已将其4 vCPU Delphix VM(运行在VMware ESX上)升级到新的Delphix版本,并添加了两个额外的vCPU。升级后,虚拟机将不再启动。每次VM启动时,操作系统都会开始初始化,然后挂起。我和我的同事试图强制执行崩溃转储,但不幸的是,VM没有响应NMI。我们重新启动了虚拟机,并使用调试器完成了早期引导,这表明系统在调用start_other_cpu()后挂起了某个时间。start_other_cpus()是在早期引导期间从CPU 0调用以启动系统中的其他处理器的,从调试器中不清楚它挂起的位置或原因。客户急于要回他们的系统,所以我们冒了一个险,把vCPU的数量从6改为1。令我们惊讶的是,虚拟机启动了。然后我们将vCPU计数从1改回6,虚拟机仍然启动。客户对系统正常运行很高兴,但我更担心,因为我们不知道真正的根本原因。在客户暂时解除封锁的情况下,我回到了德尔菲克斯,试图在内部重现这个问题。我写了一个简单的脚本,与在客户网站上所做的相匹配:1) 启动4 vCPU虚拟机2) 升级Delphix OS版本3) 停止虚拟机4) 将vCPU计数从4更改为65) 启动虚拟机花了大约一个星期的时间,但我终于重现了这个问题。虽然我在客户系统上受时间限制,但我现在可以一条指令一条指令地完成引导过程。可悲的是,与kmdb的单步操作会导致系统在启动时不再挂起。我想使用DTrace来收集一些堆栈回溯,但是不能利用事后分析工具,因为在引导期间挂起太早了。DTrace使我非常习惯于记录理解和诊断问题所需的任意数据。当DTrace无法发光的领域出现问题时,它会使缺乏信息更加痛苦。幸运的是,我的老同事keithadams在VMware中构建了一个类似DTrace的工具,可以观察到客户操作系统正在做什么。esx4.1没有VProbes,所以我把VM迁移到了esx5.0上,如果工作有一段时间后,问题又出现了。我的第一个实验是编写一个简单的VProbe脚本,在1Hz定时器上获取一个回溯轨迹,看看各种vCPU在哪里。我想到了以下几点:@VM=147(定义字符串堆栈)(V探头VMM1Hz(客栈)(printf"CPUD:%d堆栈:%sn"VCPUID堆栈)这产生了以下结果:CPUD:1栈:GUEST xfffffffffb8545c6_0xfffffffffb854a79CPUD:3栈:GUEST xfffffffb841c8e_0xfffffffffb842595_0xfffffffb84278e_0xfffffffffb84357e_0x0CPUD:0堆栈:GUEST xfffffffb84cd24_0xfffffffb841e1c_0xfffffffb841f5c_0xfffffffffb842220_0xfffffffba724f4_0xfffffffffb8000a0_0x0CPUD:2栈:GUEST xfffffffb801d94_0xfffffffb9ec9ed_0xfffffffb9ed69d_0xfffffffffb9d4b3f_0xfffffffb9d54db_0xfffffffb9dc2a3_0xfffffffb9dc172_0xfffffffb79d376d_0xfffffffffb86e938_0x0这太棒了!在VProbes之前,我不知道CPU挂在哪里,现在我有了所有CPU的位置!查看数据一段时间后,我注意到CPU 1、2和3的回溯总是相同的,CPU 3的回溯在同一函数中的两个不同偏移之间变化。使用旧ESX主机上运行的另一个VM副本,我编写了一个脚本,使用mdb将VProbes中的十六进制地址转换为符号堆栈:CPU 0:tsc同步主机+0x6c:mp启动cpu公共+0x134:启动cpu+0x44:启动其它CPU+0x198:主+0x2ac:_locore_启动+0x90:CPU 1:xc服务+0x12e:xc_公共电话+0x229:CPU 2:cbe\u xcall+0x95:此处循环重编程+0x4d:循环重编程+0x95:callout_heap_insert+0x6f:超时\u generic+0x333:简历时间等待招聘+0xab:cv_timedwait+0x5a:arc_reclaim_线程+0x13d:线程开始+8:CPU 3:mp_启动_信号+0x6e:mp_启动_common+0x1b5:启动启动启动启动+0xe:0xfffffffffb84357e: CPU 0和3的回溯似乎卡在了紧密的循环中:CPU 0卡在tsc_sync_master()中:...for(cnt=0;cnt<;SYNC_ITERATIONS;cnt++){同时(tsc同步走!=TSC_SYNC_GO)SMT_PAUSE();<;--***卡在这里***...CPU 3在从mp_startup_common()调用mp_startup_signal()时卡住:...CPUSET_ATOMIC_ADD(*(CPUSET_t*)sp,cpuid);for(tempset=*sp;CPU_IN_SET(tempset,cpuid);温度设置=*(易失性cpuset_t*)sp){SMT_PAUSE();<;--***卡在这里***}...在高级别上,CPU 0正在等待CPU 3指示它已准备好同步其TSC。CPU 3已经完成了TSC的同步,正在等待引导CPU向它发出信号以完成初始化。仔细看一下tsc_sync_master(),我发现了一个明显的问题:...hwtype=get_hwenv();如果(!tsc_master_slave_sync_needed | | hwtype==HW_XEN_HVM||hwtype==HW_VMWARE)cpu_id;for(cnt=0;cnt<;SYNC_ITERATIONS;cnt++){同时(tsc同步走!=TSC_SYNC_GO)SMT_PAUSE();<;--***卡在这里***...tsc\u sync_master()具有显式逻辑,如果我们运行在VMware上,则不同步tsc,但不知何故get_hwenv()返回了HW_VMware之外的其他内容。看了看get_hwenv(),我很快就确定了platform():...内景获取hwenv(无效){if(平台类型==-1)确定_平台();返回(平台式);}静孔隙确定平台(){结构cpuid_regs cp;char*xen\u str;字符;uint32_t xen_签名[4],基;平台类型=硬件本地;...}如果多个CPU调用determine_platform(),那么determine_platform()显然会被破坏,因为每次调用它时,它都会重置全局platform_类型。结果是,我们从cpuid_pass1()调用determine_platform(),它作为每个cpu的mp_cpu_start_common()的一部分被调用。喂,我找到比赛了!CPU 3调用determinate_platform(),作为启动的一部分,在将platform_type设置为HW_NATIVE之前,将其短暂设置为HW_VMWARE。在该窗口期间,CPU 0碰巧调用了get_hwenv(),这会导致tsc_sync_master()在等待CPU 3将tsc_sync_go设置为tsc_sync_go时卡住,这将永远不会发生。我总是惊讶于一旦你有了正确的数据,诊断复杂问题是多么容易。我试图用mdb调试这个问题好几天,但没有取得任何进展,但是在获得VProbe数据的几个小时内,我就找到了根本原因。虽然DTrace几乎可以从任何地方收集数据,但系统的某些部分却无法访问。VProbes是一个巨大的救世主,也是另一个伟大的调试工具。

  • 企业云_哪里买_大数据网站 企业云_哪里买_大数据网站

    Delphix最近与AWS合作,帮助人们和团队加快并确保迁移到业界领先的Amazon Web服务云平台。AWS市场上的Delphix结合了AWS,加快了重要的迁移项目,并将时间从几周、几个月缩短到几天。客...

  • 云存储服务器_网站_云存储文件上传 云存储服务器_网站_云存储文件上传

    数据操作帮助人们与数据连接的方式因技术、用户和用例的不同而有很大差异。例如,数据民主化一直是分析界的话题,专注于为非技术用户提供回答关键问题和推动业务新见解所需...

  • 带宽和网速的关系_如何租用_工业大数据 带宽和网速的关系_如何租用_工业大数据

    在大多数人可能会做噩梦,梦到上班时忘了穿裤子,数据库管理员(DBA)的噩梦围绕着出现在工作中,被告知生产系统出现严重故障或其他高影响情况,而完全不知道。监控和警觉是...

  • 阿里服务器_如何选_物联网开发套件 阿里服务器_如何选_物联网开发套件

    几天前,在旧金山的纳斯达克中心,我见到了首席信息官Ken Piddington先生,他也是首席信息官的执行顾问。Ken说:"我和首席信息官和IT部门的首要任务是数据转换。"事实上,他经常听...

  • 阿里服务器_阿里云_国内物联网操作系统 阿里服务器_阿里云_国内物联网操作系统

    "对创新的需求正在增长,而且增长迅速,"埃森哲的吉滕德拉·卡瓦特卡尔(Jitendra Kavathekar)最近在旧金山举行的Delphix数据活动上评论道我们需要将人们与技术联系起来,推动全球的...

  • <strong>香港cn2服务器_什么是_大数据分析软件有</strong> 香港cn2服务器_什么是_大数据分析软件有

    数据的使用应该是无摩擦的,让数据消费者能够看到和访问所有版本的授权数据,而不必考虑位置、云平台或存储供应商。为了确保这些能力,企业实施解决方案,在管理数据的运营...

  • 数据云_怎么购买_云服务器哪便宜 数据云_怎么购买_云服务器哪便宜

    上周,我们的一个主要合作伙伴给我发了一封信,帮助他了解在Oracle和SQL Server上实现Delphix的方式之间的差异。如果您不熟悉Delphix动态数据平台(DDP),那么在您阅读完Oracle的支持和...

  • 负载均衡_如何租用_人工智能用的什么技 负载均衡_如何租用_人工智能用的什么技

    德尔菲斯工程和支持是非常了不起的人。他们继续寻求解决方案,不管需要多少时间,也不管他们面临支持异构环境、硬件配置和客户需求的复杂挑战。这篇文章是为了支持我们的团...

  • 大宽带服务器_海外_关系型数据库和非关 大宽带服务器_海外_关系型数据库和非关

    大家好!我又回到了"演示马鞍"上,来展示将数据从一个云复制到另一个云是多么容易。数据摩擦比比皆是,很少有地方像云迁移项目那样感受到数据摩擦。将数据传输到云中可能是一...