NetApp StorageGRID对象存储Storage节点上报告Lost Object的处理流程

Posted on

警告描述

NetApp StorageGRID对象存储集群中的某个Storage节点,其Distributed Data Store(DDS)服务出现LOST (Lost Object): Over 0警告。此警告表示该节点上校验出对象存在于当前元数据记录中,但实际不存在或不可读的情况。

查询对象信息

1. SSH登陆到StorageGRID集群的Admin节点。

2. 切换至集群审计日志的保存路径:

$ cd /var/local/audit/export

3. 筛选实时审计日志(audit.log)中的OLST信息:

$ grep OLST audit.log

返回得到类似信息:

2020-03-13T08:43:57.356370 [AUDT:[CBID(UI64):0xE77E03D9E6D34AF8][UUID(CSTR):"0B4AF9A2-6C98-40E0-A4B5-64257180174A"][NOID(UI32):12017919][VOLI(UI64):2148139010][RSLT(FC32):NONE][AVER(UI32):10][ATIM(UI64):1584089037356370][ATYP(FC32):OLST][ANID(UI32):21241139][AMID(FC32):OBRP][ATID(UI64):12755809185869837313][ASQN(UI64):101017][ASES(UI64):1534569606141173]]

获得Lost Object的CBID。例如:0xE77E03D9E6D34AF8

4. SSH登录到Lost Object所在的Storage节点。

5. 切换至DDS服务的console控制台:

$ telnet localhost 1411

6. 获取该对象的元数据信息,其中hexadecimal_CBID_value为对象的CBID。

$ /proc/OBRP/ObjectByCBID -h {hexadecimal_CBID_value}

在返回的json数据中,寻找PHND(Parent handle, UUID)项。

  • 如果UUID不存在,则表明该对象是被人工删除的,相关警告可以忽略。在StorageGRID Webscale管理控制台中重置LOST 计数器即可。
  • 如果UUID存在,则表明该对象的本地副本可能丢失,或者对象元数据异常。如果配置过ILM策略,则LDR服务可能会尝试从其他副本节点中恢复该对象。

END