Tag Archives

13 Articles

原创

使用救援镜像恢复Nutanix集群中故障的节点CVM(适用于ESXi虚拟化)

Posted on

当Nutanix集群中某一节点的CVM遇到操作系统故障无法启动时,可以尝试通过救援镜像恢复CVM服务,而无需重刷整个节点。

风险说明:CVM作为节点存储控制器,异常的恢复操作可能导致所在节点上的数据不可用或元数据损坏。如果无法确定是否能通过该方式恢复CVM,建议将该节点强制踢出集群再重新加回。踢出集群的步骤请参阅:https://portal.nutanix.com/kb/2379

环境说明

以下操作基于AOS 5.5+ESXi 6/6.5环境。所涉及的相关CVM配置项请根据实际情况修改。示例如下: 阅读全文

笔记

Dell XC系列主机内置Satadom卡固件更新流程

Posted on

Dell XC系列服务器板载的Satadom卡为放置ESXi等虚拟化操作系统核心的存储所用。部分旧版的固件可能导致在主机重启后Satadom不可访问,从而导致无法进入系统。此时需要考虑升级固件,预防Satadom读写故障。

升级前检查

1. 确认当前Satadom固件版本:在ESXi中执行如下命令:

$ esxcli storage core device list| grep -A4 Path

返回结果如下: 阅读全文

笔记

Nutanix集群出现CVM间高网络延迟问题的分析

Posted on

问题描述

Prism中出现如下告警事件:

Latency between CVMs: Latency between CVMs is higher than 15 ms.

出现此告警则表示CVM互Ping延迟较高(超过15ms,一般同一集群内的延迟不应该高于2ms),会影响ZooKeeper及Cassandra服务的稳定性,极端情况下会造成数据复制异常。

集群NCC检查项名称为:inter_cvm_ping_latency_check 阅读全文

笔记

Nutanix集群上ZooKeeper服务异常问题的排查

Posted on

Nutanix集群使用ZooKeeper来管理集群内所有节点的数据复制状态。ZooKeeper服务异常会导致集群的高可用性降低,数据跨节点复制任务出错。因此当集群报ZooKeeper服务不正常时需要人工进行确认。

NCC检查指令

$ ncc health_checks system_checks zkinfo_check_plugin

NCC指令结果

#错误类型1:
#提示ZooKeeper服务没有在部分CVM上正常运行
Zookeeper service is not running on all CVMs.

#错误类型2:
#提示ZooKeeper节点不活跃
All zookeeper servers are not active. Inactive servers are zk*:XXXX (ZooKeeper PID)
Could not check status of zookeeper server zk* at XXXX

#错误类型3:
#提示ZooKeeper服务建立的连接数太多(正常在单个进程有不多于40/55个连接数)
There are XX open connections from XX.XX.XX.XX to zk*

排查方法

确认CVM上ZooKeeper主机记录是否正常

0. SSH登陆到ZooKeeper服务存在问题的节点CVM上。

1. 确认存在ZooKeeper主机IP的host记录: 阅读全文