Nutanix集群清理CVM中cpu_unblock进程 防止句柄堵塞造成的高CPU占用
针对Nutanix集群,如果节点的CVM上有进程进入cpu_unblock状态且无法正常退出,可能会造成句柄堵塞,进而触发CPU高平均负载的警报。可以通过定期清理僵死进程的方式防范此问题。
处理方法
登陆问题节点的CVM:
1、查看当前已有的cpu_unblock线程数:
针对Nutanix集群,如果节点的CVM上有进程进入cpu_unblock状态且无法正常退出,可能会造成句柄堵塞,进而触发CPU高平均负载的警报。可以通过定期清理僵死进程的方式防范此问题。
登陆问题节点的CVM:
1、查看当前已有的cpu_unblock线程数:
Nutanix集群所用的Dell XC系列服务器上板载有Satadom卡,专门用于Hypervisor系统引导,以确保虚拟化层的完整性与稳定性。一般来说,这块板载的Satadom卡存在一定的使用寿命。如果出现I/O Error、Cannot open volumes的提示或者NCC服务自检出WARN - Hardware Satadom is wore and tore
,则需在其报废不可读之前主动更换。在更换前需要克隆原Satadom镜像,并导入至新Satadom卡中。
注意:本教程仅适用于原Satadom仍可正常引导、读写的情况。如果Satadom已损坏或者无法引导节点,则本手册方法不适用,需要完全重刷Satadom及对应ESXi系统。
系统环境:Nutanix (AOS 4.7.x~5.5.x) + VMware ESXi (5.5~6.7)。如果用NX自带的AHV虚拟化环境,则操作可能有所不同。
最新的VMware ESXi 6.0/6.5安装镜像针对万兆网卡(10Gbps NIC)默认启用的是ixgben类型的网卡驱动。相比于ixgbe,ixgben支持更高级的网络特性。但是这个驱动并不完全兼容所有应用,并且在ESXi 6.0上,其高级流控管理在特定场景下会导致整个虚拟化层的网络崩溃。因此在ixgben驱动完善之前,推荐使用更为成熟稳定的ixgbe驱动。
注:本方案不适用于ESXi 6.7,该环境下推荐使用ixgben驱动。
1、通过vSphere Client将主机置于维护模式(Maintenance Mode)
Nutanix集群中的单一节点如果需要停机,为避免集群状态出现波动影响业务,需要对节点进行优雅关机。
1、手动迁移需停机节点上的所有虚拟机
2、查看集群目前状态允许停机节点数:
对于Nutanix超融合环境中创建的虚拟机要连接外网,在未配置交换机的情况下,一般可以与集群中的CVM进行网络桥接。
在Prism中:
1、Name:虚拟网络名称