NetApp MetroCluster存储双活集群主从的手工切换
NetApp MetroCluster存储双活集群主从的手工切换步骤及常见问题的处理方法。
检查MetroCluster集群状态
在尝试进行主从切换前,务必需要确保集群配对状态正常,否则可能会造成脑裂情况。
$ metrocluster check cluster show
手动触发主从集群切换
1. 当前集群控制切换至对端,强制让对端接管:
NetApp MetroCluster存储双活集群主从的手工切换步骤及常见问题的处理方法。
在尝试进行主从切换前,务必需要确保集群配对状态正常,否则可能会造成脑裂情况。
$ metrocluster check cluster show
1. 当前集群控制切换至对端,强制让对端接管:
Prism中出现如下告警事件:
Latency between CVMs: Latency between CVMs is higher than 15 ms.
出现此告警则表示CVM互Ping延迟较高(超过15ms,一般同一集群内的延迟不应该高于2ms),会影响ZooKeeper及Cassandra服务的稳定性,极端情况下会造成数据复制异常。
集群NCC检查项名称为:inter_cvm_ping_latency_check
对于NetApp StorageGRID对象存储集群,如果单一节点上的对象数量过大时,可能导致Cassandra服务在执行元数据(metadata)压缩任务时Java可用内存不足的情况,进一步导致Cassandra服务频繁崩溃。
查询Server Manager日志,可以发现大量Cassandra服务重启记录:
2018-12-14 02:03:58 +0000 | cassandra | starting cassandra 2018-12-14 02:03:36 +0000 | cassandra | cassandra ended 2018-12-14 01:44:21 +0000 | cassandra | starting cassandra 2018-12-14 01:44:01 +0000 | cassandra | cassandra ended 2018-12-14 01:06:29 +0000 | cassandra | starting cassandra 2018-12-14 01:06:08 +0000 | cassandra | cassandra ended
查询Cassandra日志,可以发现大量Java内存溢出的Error错误:
Nutanix集群使用ZooKeeper来管理集群内所有节点的数据复制状态。ZooKeeper服务异常会导致集群的高可用性降低,数据跨节点复制任务出错。因此当集群报ZooKeeper服务不正常时需要人工进行确认。
$ ncc health_checks system_checks zkinfo_check_plugin
#错误类型1: #提示ZooKeeper服务没有在部分CVM上正常运行 Zookeeper service is not running on all CVMs. #错误类型2: #提示ZooKeeper节点不活跃 All zookeeper servers are not active. Inactive servers are zk*:XXXX (ZooKeeper PID) Could not check status of zookeeper server zk* at XXXX #错误类型3: #提示ZooKeeper服务建立的连接数太多(正常在单个进程有不多于40/55个连接数) There are XX open connections from XX.XX.XX.XX to zk*
0. SSH登陆到ZooKeeper服务存在问题的节点CVM上。
1. 确认存在ZooKeeper主机IP的host记录:
利用iozone和fio跑分工具进行ITSS标准存储设备性能测试。
ITSS(Information Technology Service Standards)信息技术服务标准,是在工业和信息化部、国家标准化委的领导和支持下,由ITSS工作组研制的一套IT服务领域的标准库和一套提供IT服务的方法论。
为了达到最优测试效果,所有工具推荐使用编译安装。