天下数据官网 | 加入收藏 | 网站地图 天下数据新闻资讯平台!
免费定制全球大数据安全解决方案
广告 1000x90
您的当前位置:天下数据IDC资讯 > 行业报告 > IDC数据报告 > 正文

采用电源循环测试查找硬件故障

来源:互联网 编辑:admin 时间:2017-05-03

如今,企业采取各种措施不让意外停机时间中断其数据中心业务。而进行电源循环测试,以主动监控系统并以有条不紊,有序的方式识别硬件故障是一种很好的措施。

由于在数据中心日常操作期间可能不会使用IT系统的所有部分,因此IT组件可能会失效或软件模块可能崩溃,但系统可能会正常运行数月甚至数年。在系统重新启动(通常意外)之前,故障可能无法显示,从而导致意外的工作负载中断和停机时间。而企业需要通过周期性电源循环测试,以识别可能出现的问题并主动解决问题。

如果没有看到任何问题,为什么要执行电源循环测试?

数据中心所采用的系统管理工具包括MicrosoftSystemCenter,SolarWinds,Nagios和Zabbix这些强大的多功能平台。几乎所有的系统管理工具都可以提供故障,配置,会计,性能和安全管理等功能,使其成为现代企业不可或缺的一部分。

但是,某些故障可能发生在硬件级别,但可能不会立即影响系统或工作负载。例如,可能在服务器的双列直插存储器模块(DIMM)中检测到存储器故障。但是,如果没有工作负载使用该内存空间,或者故障DIMM采用了故障纠正技术保护,则服务器可以继续工作,很少向系统管理报告其直接错误。在大多数情况下,现代服务器的智能平台管理界面或基板管理系统可以报告这些错误,但是该信息通常只是记录,系统及其工作负载将继续运行。

而那些未检测到的和未解决的硬件问题才是最大的问题。如果意外的系统崩溃或电源中断导致计划外的系统重新启动,则系统的内部固件可能会看到这些问题并拒绝完成引导过程。例如,如果服务器的南桥芯片出现故障,并且USB或板载磁盘控制器功能未初始化或响应,则引导过程将停止,即使企业可能不使用服务器的USB端口,而是通过网络访问存储。现在,IT部门必须尝试从意外中断中恢复,并同时解决有缺陷的系统。

为了避免出这种情况,请进行定期现,并主动进行电源循环测试,以强制在低级别硬件中重新启动系统。除了在计划外中断或停机期间进行加扰,还可以使用计划的重新启动来确保数据保护,并以有组织的方式将虚拟机或存储实例迁移到目标设备之外。接下来,循环上电,并允许硬件系统完全启动,以显示潜在的未知或未解决的问题。系统电源循环通常作为组织现有关闭文档的一部分。如果在重新启动过程中出现问题,企业将采取更好的准备采取纠正措施。

应该如何接近电源循环测试,以及应该多久进行一次?

具有高质量设计的服务器可以运行多年。当企业在弹性配置(例如服务器集群)中部署这些服务器设计时,这些系统上支持的工作负载几乎是不可破坏的。事实上,强调系统弹性和正常运行时间常常导致许多组织放弃周期性的功率循环。

网友评论:

资讯首页 | IT业界 | 网络安全 | 解决方案 | CDN | 云计算 | 大数据 | 虚拟化 | 操作系统 | 电子商务 | 行业报告

《中华人民共和国增值电信业务经营许可证》 ISP证:粤ICP备07026347号-6

深圳市朗玥科技有限公司版权所有

7×24小时服务热线:4006388808 0755-83460248 7×24小时售后支持:0755-83460017

7×24小时销售热线:0755-83460032 83461241              香港服务电话:+852 67031102

深圳总部:中国.深圳市福田区车公庙苍松大厦北座13层 香港总部:香港上環蘇杭街49-51號建安商業大廈7樓

Top