Category Archives

21 Articles

笔记

调整NetApp StorageGRID对象存储集群中单节点的Java Heap池大小

Posted on

问题描述

对于NetApp StorageGRID对象存储集群,如果单一节点上的对象数量过大时,可能导致Cassandra服务在执行元数据(metadata)压缩任务时Java可用内存不足的情况,进一步导致Cassandra服务频繁崩溃。

问题现象

查询Server Manager日志,可以发现大量Cassandra服务重启记录:

2018-12-14 02:03:58 +0000 | cassandra | starting cassandra
2018-12-14 02:03:36 +0000 | cassandra | cassandra ended
2018-12-14 01:44:21 +0000 | cassandra | starting cassandra
2018-12-14 01:44:01 +0000 | cassandra | cassandra ended
2018-12-14 01:06:29 +0000 | cassandra | starting cassandra
2018-12-14 01:06:08 +0000 | cassandra | cassandra ended

查询Cassandra日志,可以发现大量Java内存溢出的Error错误: 阅读全文

笔记

Nutanix集群上ZooKeeper服务异常问题的排查

Posted on

Nutanix集群使用ZooKeeper来管理集群内所有节点的数据复制状态。ZooKeeper服务异常会导致集群的高可用性降低,数据跨节点复制任务出错。因此当集群报ZooKeeper服务不正常时需要人工进行确认。

NCC检查指令

$ ncc health_checks system_checks zkinfo_check_plugin

NCC指令结果

#错误类型1:
#提示ZooKeeper服务没有在部分CVM上正常运行
Zookeeper service is not running on all CVMs.

#错误类型2:
#提示ZooKeeper节点不活跃
All zookeeper servers are not active. Inactive servers are zk*:XXXX (ZooKeeper PID)
Could not check status of zookeeper server zk* at XXXX

#错误类型3:
#提示ZooKeeper服务建立的连接数太多(正常在单个进程有不多于40/55个连接数)
There are XX open connections from XX.XX.XX.XX to zk*

排查方法

确认CVM上ZooKeeper主机记录是否正常

0. SSH登陆到ZooKeeper服务存在问题的节点CVM上。

1. 确认存在ZooKeeper主机IP的host记录: 阅读全文

笔记

细化NetApp磁盘阵列基础策略的触发间隔

Posted on

NetApp自带策略任务的触发间隔默认为:日-Daily / 周-Weekly / 月-Monthly,对于一个高负载的存储阵列,这样的间隔幅度还是比较长的。我们可以细化策略至每小时/24,来分散任务执行时对系统负载的压力。

全局按小时触发的计划任务

$ job schedule cron create -name 0 -minute 0 -hour 0
$ job schedule cron create -name 1 -minute 0 -hour 1
$ job schedule cron create -name 2 -minute 0 -hour 2
$ job schedule cron create -name 3 -minute 0 -hour 3
$ job schedule cron create -name 4 -minute 0 -hour 4
$ job schedule cron create -name 5 -minute 0 -hour 5
$ job schedule cron create -name 6 -minute 0 -hour 6
$ job schedule cron create -name 7 -minute 0 -hour 7
$ job schedule cron create -name 8 -minute 0 -hour 8
$ job schedule cron create -name 9 -minute 0 -hour 9
$ job schedule cron create -name 10 -minute 0 -hour 10
$ job schedule cron create -name 11 -minute 0 -hour 11
$ job schedule cron create -name 12 -minute 0 -hour 12
$ job schedule cron create -name 13 -minute 0 -hour 13
$ job schedule cron create -name 14 -minute 0 -hour 14
$ job schedule cron create -name 15 -minute 0 -hour 15
$ job schedule cron create -name 16 -minute 0 -hour 16
$ job schedule cron create -name 17 -minute 0 -hour 17
$ job schedule cron create -name 18 -minute 0 -hour 18
$ job schedule cron create -name 19 -minute 0 -hour 19
$ job schedule cron create -name 20 -minute 0 -hour 20
$ job schedule cron create -name 21 -minute 0 -hour 21
$ job schedule cron create -name 22 -minute 0 -hour 22
$ job schedule cron create -name 23 -minute 0 -hour 23

按小时触发的效率策略

以下策略配合重复数据删除功能用,按时触发在后台执行,减轻重删对系统服务性能的影响。

要在所有SVM上分别建立所有策略。 阅读全文