知人から「なんかサーバのHDDがオレンジになってるんだけど…」という一報があった。
恐る恐るMegaRAID Storage Managerで状態を見てみると、Unexpected senseやらCommand timeoutやらPower on, reset, or bus device reset occurredやらが出てアレイがデグレってた:( ;´꒳`;):。マシンはDELL PowerEdge T330, PERC H730で、アレイはMD050ACA800×4, WD80EFAX×4でRAID-6からVDを2つ切り出してるという構成。稼働してまだ10カ月くらい。そのうち1つのWD80EFAXが切り離されていた。ログは↓な感じで。
ID | TIME | MESSAGE ----+---------------------+--------------------- 267 | 2019-10-30 08:51:57 | Controller ID: 0 Command timeout on PD: PD = -:-:5 No addtional sense information, CDB = 0x8a 0x00 0x00 0x00 0x00 0x02 0xd3 0x03 0xb9 0x00 0x00 0x00 0x00 0x80 0x00 0x00 , Sense = , Path = 0x4433221103000000 267 | 2019-10-30 08:51:57 | Controller ID: 0 Command timeout on PD: PD = -:-:5 No addtional sense information, CDB = 0x8a 0x00 0x00 0x00 0x00 0x02 0xd3 0x03 0xba 0x00 0x00 0x00 0x00 0x80 0x00 0x00 , Sense = , Path = 0x4433221103000000 268 | 2019-10-30 08:51:57 | Controller ID: 0 PD Reset: PD = -:-:5, Critical = 3, Path = 0x4433221103000000 267 | 2019-10-30 08:52:09 | Controller ID: 0 Command timeout on PD: PD = -:-:5 No addtional sense information, CDB = 0x8a 0x00 0x00 0x00 0x00 0x02 0xd3 0x03 0xbc 0x80 0x00 0x00 0x00 0x80 0x00 0x00 , Sense = , Path = 0x4433221103000000 268 | 2019-10-30 08:52:09 | Controller ID: 0 PD Reset: PD = -:-:5, Critical = 3, Path = 0x4433221103000000 113 | 2019-10-30 08:52:13 | Controller ID: 0 Unexpected sense: PD = -:-:5 Logical unit not ready, cause not reportable, CDB = 0x8a 0x00 0x00 0x00 0x00 0x02 0xd3 0x03 0xbc 0x80 0x00 0x00 0x00 0x80 0x00 0x00 , Sense = 0x70 0x00 0x02 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x04 0x00 0x00 0x00 0x00 0x00 113 | 2019-10-30 08:52:14 | Controller ID: 0 Unexpected sense: PD = -:-:5 Power on, reset, or bus device reset occurred, CDB = 0x1b 0x01 0x00 0x00 0x01 0x00 , Sense = 0x70 0x00 0x06 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x29 0x00 0x00 0x00 0x00 0x00 113 | 2019-10-30 08:52:15 | Controller ID: 0 Unexpected sense: PD = -:-:5 Power on, reset, or bus device reset occurred, CDB = 0x8a 0x00 0x00 0x00 0x00 0x02 0xd3 0x03 0xbc 0x80 0x00 0x00 0x00 0x80 0x00 0x00 , Sense = 0x70 0x00 0x06 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x29 0x00 0x00 0x00 0x00 0x00 267 | 2019-10-30 08:52:36 | Controller ID: 0 Command timeout on PD: PD = -:-:5 No addtional sense information, CDB = 0x1b 0x01 0x00 0x00 0x01 0x00 , Sense = , Path = 0x4433221103000000 268 | 2019-10-30 08:52:36 | Controller ID: 0 PD Reset: PD = -:-:5, Critical = 3, Path = 0x4433221103000000 87 | 2019-10-30 08:52:37 | Controller ID: 0 PD Error: -:-:5 ( Critical 240) 114 | 2019-10-30 08:52:37 | Controller ID: 0 State change: PD = -:-:5 Previous = Online Current = Failed 81 | 2019-10-30 08:52:37 | Controller ID: 0 State change on VD: 0 Previous = Optimal Current = Partially Degraded 250 | 2019-10-30 08:52:37 | Controller ID: 0 VD is now PARTIALLY DEGRADED VD 0 81 | 2019-10-30 08:52:37 | Controller ID: 0 State change on VD: 1 Previous = Optimal Current = Partially Degraded 250 | 2019-10-30 08:52:37 | Controller ID: 0 VD is now PARTIALLY DEGRADED VD 1 113 | 2019-10-30 08:52:37 | Controller ID: 0 Unexpected sense: PD = -:-:5 Power on, reset, or bus device reset occurred, CDB = 0x8a 0x00 0x00 0x00 0x00 0x02 0xd3 0x03 0xc2 0x00 0x00 0x00 0x00 0x80 0x00 0x00 , Sense = 0x70 0x00 0x06 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x29 0x00 0x00 0x00 0x00 0x00 114 | 2019-10-30 10:45:49 | Controller ID: 0 State change: PD = -:-:5 Previous = Failed Current = Online 81 | 2019-10-30 10:45:49 | Controller ID: 0 State change on VD: 0 Previous = Partially Degraded Current = Optimal 249 | 2019-10-30 10:45:49 | Controller ID: 0 VD is now OPTIMAL VD 0 81 | 2019-10-30 10:45:49 | Controller ID: 0 State change on VD: 1 Previous = Partially Degraded Current = Optimal 249 | 2019-10-30 10:45:49 | Controller ID: 0 VD is now OPTIMAL VD 1 113 | 2019-10-30 10:45:49 | Controller ID: 0 Unexpected sense: PD = -:-:5 Power on, reset, or bus device reset occurred, CDB = 0x8a 0x00 0x00 0x00 0x00 0x00 0x00 0x12 0x51 0x28 0x00 0x00 0x00 0x38 0x00 0x00 , Sense = 0x70 0x00 0x06 0x00 0x00 0x00 0x00 0x0a 0x00 0x00 0x00 0x00 0x29 0x00 0x00 0x00 0x00 0x00
それらしい単語でググってみると、何やらファームの良く知られたちょっとしたバグ?らしく、無視しておkとのこと。タイムアウトでHDDが切り離されちゃってるのは気になるところだけど…。
サーバは遠隔地にあるため実物は確認できてないが、HDDそのものは動いてはいるようなので、オンラインにしてConsistency Checkを掛けた。今のところ問題なく動いているようだ。
なおパリティの再構成時間は、200GB(内22GB使用中)のVDで4分(196か所訂正)、54TB(内21.6TB使用中)のVDで17時間(11953か所訂正)だった。