Nutanix集群上ZooKeeper服务异常问题的排查
Nutanix集群使用ZooKeeper来管理集群内所有节点的数据复制状态。ZooKeeper服务异常会导致集群的高可用性降低,数据跨节点复制任务出错。因此当集群报ZooKeeper服务不正常时需要人工进行确认。
NCC检查指令
$ ncc health_checks system_checks zkinfo_check_plugin
NCC指令结果
#错误类型1: #提示ZooKeeper服务没有在部分CVM上正常运行 Zookeeper service is not running on all CVMs. #错误类型2: #提示ZooKeeper节点不活跃 All zookeeper servers are not active. Inactive servers are zk*:XXXX (ZooKeeper PID) Could not check status of zookeeper server zk* at XXXX #错误类型3: #提示ZooKeeper服务建立的连接数太多(正常在单个进程有不多于40/55个连接数) There are XX open connections from XX.XX.XX.XX to zk*
排查方法
确认CVM上ZooKeeper主机记录是否正常
0. SSH登陆到ZooKeeper服务存在问题的节点CVM上。
1. 确认存在ZooKeeper主机IP的host记录: