2018 年 – One Notebook

NetApp MetroCluster存储双活集群主从的手工切换

Posted on 2018年12月25日

NetApp MetroCluster存储双活集群主从的手工切换步骤及常见问题的处理方法。

检查MetroCluster集群状态

在尝试进行主从切换前，务必需要确保集群配对状态正常，否则可能会造成脑裂情况。

$ metrocluster check cluster show

手动触发主从集群切换

1. 当前集群控制切换至对端，强制让对端接管：阅读全文

笔记

Nutanix集群出现CVM间高网络延迟问题的分析

Posted on 2018年12月25日

问题描述

Prism中出现如下告警事件：

Latency between CVMs: Latency between CVMs is higher than 15 ms.

出现此告警则表示CVM互Ping延迟较高（超过15ms，一般同一集群内的延迟不应该高于2ms），会影响ZooKeeper及Cassandra服务的稳定性，极端情况下会造成数据复制异常。

集群NCC检查项名称为：inter_cvm_ping_latency_check 阅读全文

笔记

调整NetApp StorageGRID对象存储集群中单节点的Java Heap池大小

Posted on 2018年12月14日

问题描述

对于NetApp StorageGRID对象存储集群，如果单一节点上的对象数量过大时，可能导致Cassandra服务在执行元数据（metadata）压缩任务时Java可用内存不足的情况，进一步导致Cassandra服务频繁崩溃。

问题现象

查询Server Manager日志，可以发现大量Cassandra服务重启记录：

2018-12-14 02:03:58 +0000 | cassandra | starting cassandra
2018-12-14 02:03:36 +0000 | cassandra | cassandra ended
2018-12-14 01:44:21 +0000 | cassandra | starting cassandra
2018-12-14 01:44:01 +0000 | cassandra | cassandra ended
2018-12-14 01:06:29 +0000 | cassandra | starting cassandra
2018-12-14 01:06:08 +0000 | cassandra | cassandra ended

查询Cassandra日志，可以发现大量Java内存溢出的Error错误：阅读全文

笔记

Nutanix集群上ZooKeeper服务异常问题的排查

Posted on 2018年12月3日

Nutanix集群使用ZooKeeper来管理集群内所有节点的数据复制状态。ZooKeeper服务异常会导致集群的高可用性降低，数据跨节点复制任务出错。因此当集群报ZooKeeper服务不正常时需要人工进行确认。

NCC检查指令

$ ncc health_checks system_checks zkinfo_check_plugin

NCC指令结果

#错误类型1：
#提示ZooKeeper服务没有在部分CVM上正常运行
Zookeeper service is not running on all CVMs.

#错误类型2：
#提示ZooKeeper节点不活跃
All zookeeper servers are not active. Inactive servers are zk*:XXXX (ZooKeeper PID)
Could not check status of zookeeper server zk* at XXXX

#错误类型3：
#提示ZooKeeper服务建立的连接数太多（正常在单个进程有不多于40/55个连接数）
There are XX open connections from XX.XX.XX.XX to zk*

排查方法

确认CVM上ZooKeeper主机记录是否正常

0. SSH登陆到ZooKeeper服务存在问题的节点CVM上。

1. 确认存在ZooKeeper主机IP的host记录：阅读全文

利用iozone和fio跑分工具进行ITSS标准存储设备性能测试

Posted on 2018年11月3日

利用iozone和fio跑分工具进行ITSS标准存储设备性能测试。

什么是ITSS

ITSS（Information Technology Service Standards）信息技术服务标准，是在工业和信息化部、国家标准化委的领导和支持下，由ITSS工作组研制的一套IT服务领域的标准库和一套提供IT服务的方法论。

ITSS标准存储测试指标

使用iozone benchmark工具测试存储的随机读写速度
使用fio benchmark工具测试存储的随机IOPS（I/O per second）

测试工具安装

为了达到最优测试效果，所有工具推荐使用编译安装。阅读全文

Yearly Archives

NetApp MetroCluster存储双活集群主从的手工切换

检查MetroCluster集群状态

手动触发主从集群切换

Nutanix集群出现CVM间高网络延迟问题的分析

问题描述

调整NetApp StorageGRID对象存储集群中单节点的Java Heap池大小

问题描述

问题现象

Nutanix集群上ZooKeeper服务异常问题的排查

NCC检查指令

NCC指令结果

排查方法

确认CVM上ZooKeeper主机记录是否正常

利用iozone和fio跑分工具进行ITSS标准存储设备性能测试

什么是ITSS

ITSS标准存储测试指标

测试工具安装