华为磁阵故障硬盘手动剔除的方法

以下内容为公司的设备维保厂商提供给我的,原因是硬盘有故障,但未发生重构,所以需要手动操作让热备盘顶替故障盘。

我在OceanStor S3900上进行了操作(开启ssh,进入命令行终端进行操作),很顺利。本文有所更改,部分图片重新进行了截取。

风险硬盘更换操作指导

执行命令showupgradepkginfo -t 1查看版本信息,根据设备版本(Package Version),确认风险硬盘的更换方法。

showupgradepkginfo
版本实施方法
V100R002C00SPCh00
V100R002C01SPCh00
V100R005C00SPC700及之后的版本
V100R005C01SPC700及之后的版本
V100R005C02所有版本
按方法一实施风险硬盘更换
V100R001所有版本
V100R002C00SPCh00之前所有版本
V100R002C01SPCh00之前所有版本
V100R005C00SPC700之前的版本
V100R005C01SPC700之前的版本
按方法二实施风险硬盘更换

说明:V100R002版本依次为V100R002C00SPC001, SPC002…V100R002C00SPC015, SPCg00, SPCh00

V100R005版本依次为V100R005C00SPC002, SPC003,SPC400…SPC600, SPC700,SPC800,SPC900

方法一

操作步骤

步骤 1:登录命令行,输入developer,按照提示输入密码debug@storage。

步骤 2:执行命令showdisk -logic命令,确认需要更换的风险盘框号和槽位号。Disk Location为硬盘的框号和槽位号。

showdisk

步骤 3:执行命令simudiskimpendfail -e enclosureid -s slotid。其中enclosureid为硬盘的框号,slotid为硬盘的槽位号。以Disk Location为(1,0)为示例,则执行命令simudiskimpendfail -e 1 -s 0,执行该命令后,系统会产生该硬盘即将失效的告警。

步骤 4:执行后,硬盘会自动进行预拷贝,将数据拷贝到热备盘。通过命令showdisk -e enclosureid -s slotid查询Precopying的进度,等待硬盘的状态变为Reconstruced状态,即可正常进行故障盘更换。

步骤 5: 硬盘更换后,再查看硬盘的重构和回拷的状态。

注意:

更换硬盘时,同一套存储系统在同一时间仅能更换一块保险箱硬盘。

更换保险箱盘时会出现“保险箱盘故障”的告警。

方法二

根据硬盘的槽位信息和逻辑类型和逻辑状态进行更换,详细更换方法,请参考如下表格进行选择。

槽位showdisk -logic查询结果更换方法
保险箱槽位Logic Type为Free的硬盘参考2.1进行更换
非保险箱槽位Logic Type为Free的硬盘参考2.2进行更换
非保险箱槽位Logic Status为Free spare的盘参考2.3进行更换
非保险箱槽位Logic Type为Member盘参考2.4进行更换
保险箱槽位Logic Type为Member盘参考2.5进行更换

说明:针对Logic Status为Used spare的硬盘,需要等待重构到该槽位的硬盘更换后,硬盘会自动释放为Logic Status为Free spare或者Logic Type为Free的硬盘。

2.1 更换非RAID组成员盘的保险箱盘

操作步骤

步骤 1:确认风险硬盘为保险箱盘(即系统盘,如下图红色框标识,位于控制框的前四个槽位)。

以2U24盘位控制框保险箱盘的位置为例:

2U24盘位控制框保险箱盘位置示意图

以4U24盘位控制框保险箱盘的位置为例:

4U24盘位控制框保险箱盘位置示意图

如图所示,槽位号为0,1,2,3且逻辑状态为Free的保险箱盘:

保险箱盘

步骤 2:选择一块风险盘,根据“硬盘更换指导”更换风险盘。

注意

更换硬盘时,同一套存储系统在同一时间仅能更换一块保险箱硬盘。

更换保险箱盘时会出现“保险箱盘故障”的告警。

如果需要更换两块保险箱硬盘,更换完第一块硬盘后请等待5分钟,并观察“保险箱盘故障”告警恢复时才可更换第二块硬盘。

硬盘运行指示灯示意图

—-结束

2.2 更换非保险箱槽位的空闲盘

操作步骤

步骤 1:非保险箱槽位的空闲盘,如下图所示的(0,10)槽位硬盘:

步骤 2: 选择一块风险盘,根据“硬盘更换指导”更换风险盘。

—-结束

2.3 更换空闲热备盘

操作步骤

步骤 1:非保险箱槽位的空闲热备盘,如下图所示的(0,9)槽位硬盘:

步骤 2:选择一块风险盘,根据“硬盘更换指导”更换风险盘。

步骤 3:请参见设备热备盘”将新更换的硬盘设置为热备盘。

—-结束

2.4 更换RAID组中非保险箱槽位的成员盘

操作步骤

步骤 1:若有空闲盘但无空闲热备盘,请按照“设置热备盘”方法选择一块空闲盘设置成热备盘;若无空闲盘,在空槽位插入硬盘并设置为热备盘。热备盘大小需和RAID成员盘大小一致。

步骤 2:登录CLI执行命令(以(0,5)号盘为需更换的硬盘,(0,16)号为空闲热备盘为例),执行替换RAID组中硬盘的命令startdiskswap,例如:将硬盘(0,5)预拷贝到(0,16),则执行命令:startdiskswap -se 0 -ss 5 -te 0 -ts 16

startdiskswap

如命令执行提示硬盘类型非法,请检查目标盘类型是否设置为热备盘,若目标盘类型为热备盘,命令执行失败,请联系整改接口人。

步骤 3:使用showdisk -logic命令,查看预拷贝的情况,若拷贝完成,则目标盘(0,16)的状态为Normal,而需更换的硬盘(0,5)状态为free。如图所示,预拷贝过程中,源盘的Logic Status为Precopying:

步骤 4:根据“硬盘更换指导”更换风险硬盘(0,5)。并参考“设置热备盘”,将更换上的硬盘(0,5)设置为热备盘。

步骤 5:执行startdiskswap -se 0 -ss 16 -te 0 -ts 5,将硬盘(0,16)数据预拷贝回新替换的(0,5)硬盘上。

步骤 6:参考查看硬盘预拷贝情况。目标盘(0,5)的状态为Normal,(0,16)状态为free则表示拷贝完成,(0,5)硬盘更换成功。参考“设置热备盘”,将(0,16)设置为热备盘。

切记在执行startdiskswap时硬盘的框号和槽位号一定不能弄错;保险箱槽位硬盘不能使用该命令进行操作。一块硬盘更换完后再更换另外一块,在一块硬盘回拷未完成时,切勿对其他硬盘进行操作。

—-结束

2.5 更换作为RAID组成员盘的保险箱盘

操作步骤

若有空闲盘但无热备盘,按照“设置热备盘”方法设置热备盘;若无空闲盘,在空槽位插入硬盘并设置为热备盘。(说明:热备盘大小和RAID成员盘大小一致)

步骤 1:选择一块风险盘,根据“硬盘更换指导”更换风险盘。

步骤 2:更换完一块硬盘后,系统会自动启动硬盘的重构过程,重构完成后系统会自动将数据回拷回新更换的,请参考“查看硬盘重构和回拷状态”查看硬盘的重构和回拷的状态。待新更换的硬盘logic Status变为Normal,表示硬盘已回拷完成,硬盘更换成功。

更换硬盘为一块完后再更换另外一块,在一块硬盘回拷未完成时,切勿对其他硬盘进行操作。

—-结束

发表评论

电子邮件地址不会被公开。