处理方案
1、在线平台还应该快速精确的电脑1t硬盘,升阶fw缓解,应该升阶电脑1t硬盘FW至XCV10110,升阶的方式与raid卡达配相关的英文。XCV10110_XBUB0008_signed.bin文书MD5值下述,提升等级前请采用下面的ftp命令核实MD5值一样:#md5sum XCV10110_XBUB0008_signed.bin
258CEEC92F6284907770BBD4E5F0BBF4
RAID卡 | YZCA-00389-102 | RAID卡_INSPUR_ PM8060_2GB_SAS12G_PCIE3.0 |
YZCA-00582-103 | RAID卡_INSPUR_SAS3108_4GB_SAS12G_PCIE3 | |
V020001000000000 | RAID卡_L_8R0_9271-8i_1G_MSAS600_PCIE3_V2 | |
V06B411000000013 | RAID卡_L_8R0_9361-8i_1GB_HDM12G_PCIE3.0 | |
V06B611000000013 | RAID卡_L_8R0_9361-8i_2GB_HDM12G_PCIE3.0 | |
YZCA-00424-102 | SAS卡_INSPUR_SAS3008+IR+PCIE3.0 |
2、对於逐渐告警无非强制晋升fw的磁盘,换用逐渐强制晋升f♛w后的新编写代码磁盘,准确编写代码以下的:
V023102000000000 | 硬盘_I_3.84KTD_SSDSC2KB038T8_T2_6_100_451 | V023170000000000 | 硬盘_I_3.84KTD_SSDSC2KB038T8_T2_6_110_451 | 3.84T |
V023105000000000 | 硬盘_I_1.92KTD_SSDSC2KB019T8_T2_6_100_451 | V02316M000000000 | 硬盘_I_1.92KTD_SSDSC2KB019T8_T2_6_110_451 | 1.92T |
V023123000000000 | 硬盘_I_1.92KTD_SSDSC2KG019T8_T2_6_100_461 | V023177000000000 | 硬盘_I_1.92KTD_SSDSC2KG019T8_T2_6_110_461 |
补充说明(重要!):旧版FW的盘可能已经有异常,但是没有掉线,有隐患!!!需要结合日志判断所有老FW版本硬盘的当前状态,确认方法如下,只要有报错也需更换。
通过如下四点信息确认硬盘状态:
a) smart信息该项为0正常: 184/B8 end-toend error detection count
b) smart信息该项为0正常:187/BB uncorrect error count
c) raid卡日志下看到硬盘predictive failure count为0正常;
d) raid卡日志下看到硬盘无media error则盘正常;
smart信息查看方法(推荐使用linuxPE,已经有storcli工具,在/opt/Megasas目录)
1、 使用storcli64查看SSD在raid卡下的DID号,
./storcli64 /c0/eall/sall show
2、根据磁盘DID号,透过raid阵列去查看硬盘smart信息(确认上述两项ab两项smart信息) smartctl -a --device=sat+megaraid,12 /dev/sdb
(其中sdb为硬盘所属raid在OS下的盘符)
RAID卡日志在线查看方法
1、执行./storcli /c0/eall/sall show all |grep “Predictive Failure Count” -----查看PDlist中硬盘是否有预期错误,下方为日志内容(非命令直接打印内容)
2、执行./storcli /c0 show alilog |grep “medium error“ ------查看日志历史记录是否有其它盘报错(注意区分已经掉线的盘)
故障根因
Intel S4510/S4610(2.5寸)的低新版本FW(XCV10100)产生“Idle情形已经超过1700H掉盘”故障(此故障产生1.92T&3.84T厂品)。当Intel S4510/S4610居于Idle情形(非IO读写)下,SSD内部管理后台界面会展开Nand block环境温度扫描软件,当Idle情形达成1700H后,时刻寄存器会达成进攻,影响Block表针和CE集成ic的移位,才能有Channel Hang,Channel Hang引发后期会有掉盘或media error问题。