笔记

Nutanix集群出现CVM间高网络延迟问题的分析

Posted on

问题描述

Prism中出现如下告警事件:

Latency between CVMs: Latency between CVMs is higher than 15 ms.

出现此告警则表示CVM互Ping延迟较高(超过15ms,一般同一集群内的延迟不应该高于2ms),会影响ZooKeeper及Cassandra服务的稳定性,极端情况下会造成数据复制异常。

集群NCC检查项名称为:inter_cvm_ping_latency_check 阅读全文

笔记

Nutanix集群上ZooKeeper服务异常问题的排查

Posted on

Nutanix集群使用ZooKeeper来管理集群内所有节点的数据复制状态。ZooKeeper服务异常会导致集群的高可用性降低,数据跨节点复制任务出错。因此当集群报ZooKeeper服务不正常时需要人工进行确认。

NCC检查指令

$ ncc health_checks system_checks zkinfo_check_plugin

NCC指令结果

#错误类型1:
#提示ZooKeeper服务没有在部分CVM上正常运行
Zookeeper service is not running on all CVMs.

#错误类型2:
#提示ZooKeeper节点不活跃
All zookeeper servers are not active. Inactive servers are zk*:XXXX (ZooKeeper PID)
Could not check status of zookeeper server zk* at XXXX

#错误类型3:
#提示ZooKeeper服务建立的连接数太多(正常在单个进程有不多于40/55个连接数)
There are XX open connections from XX.XX.XX.XX to zk*

排查方法

确认CVM上ZooKeeper主机记录是否正常

0. SSH登陆到ZooKeeper服务存在问题的节点CVM上。

1. 确认存在ZooKeeper主机IP的host记录: 阅读全文

原创

修复Nutanix集群在硬件维护后“NGT CA Setup Check”检查项不通过的问题

Posted on

问题描述

在对Nutanix集群中的主机进行硬件维护,或者集群扩容节点之后,执行NCC检查会报如下错误:

FAIL: /home/ngt/ca.tar does not have the same checksum on all CVMs.

此CA文件存储了NGT(Nutanix Guest Tools)服务与集群通信用的密钥。如果每个节点CVM上存放的密钥不一致,会导致发起虚拟机迁移时NGT服务停止工作,进而影响到虚拟机一致性快照功能。硬件信息的变化会使集群重新生成CA文件,但存在CA文件部分同步失败的情况,因此产生了MD5值不一致。 阅读全文

原创

Nutanix Prism中注册vCenter后,Server出现服务中断时的处理

Posted on

对于使用ESXi虚拟化环境的Nutanix集群,从AOS 5.0之后,Prism将要求注册至vCenter,以实现虚拟机管理信息的同步。

注册后如果遇到vCenter Server服务异常或者完全崩溃,则需要及时阻止Prism与vCenter的通信,以免造成集群采集上来的虚拟机状态紊乱。

对于这种场景,根据vCenter Server发生问题的严重程度,可以分两种处理方式: 阅读全文

原创

强制中止Nutanix Prism中状态僵死的任务

Posted on

在部分特殊情况下,Nutanix集群中执行的某些任务可能会意外僵死,在Prism中可以看到此任务始终处于Running/Processing 状态。此时需要人工介入,强制中止此类任务,避免影响其他任务作业。

处理方法

0. 通过SSH登陆任意CVM。

1. 查看任务列表,其中包括所有已完成和僵死的任务: 阅读全文