ところで俺のRAID-Zを見てくれ。こいつをどう思う?
[Decomo@Freyja ~]$ zpool status pool: zdata state: UNAVAIL status: One or more devices are faulted in response to IO failures. action: Make sure the affected devices are connected, then run 'zpool clear'. see: http://illumos.org/msg/ZFS-8000-HC scan: resilvered 121G in 2h0m with 13047163 errors on Thu Sep 24 23:26:28 2015 config: NAME STATE READ WRITE CKSUM zdata UNAVAIL 96 0 0 raidz1-0 UNAVAIL 194 0 0 11774477246658925336 REMOVED 0 0 0 was /dev/ada0p1 ada1p1 ONLINE 0 0 0 replacing-2 UNAVAIL 0 0 0 3139585788591315191 UNAVAIL 0 0 0 was /dev/gpt/data0-1a ada2p1.nop ONLINE 0 0 0 raidz1-1 ONLINE 0 0 0 ada5p1 ONLINE 0 0 0 block size: 512B configured, 4096B native ada3p1 ONLINE 0 0 0 block size: 512B configured, 4096B native ada4p1 ONLINE 0 0 0 block size: 512B configured, 4096B native logs mirror-2 ONLINE 0 0 0 ada10p4 ONLINE 0 0 0 ada15p4 ONLINE 0 0 0 cache ada10p5 ONLINE 0 0 0 errors: 13047165 data errors, use '-v' for a list
すごく・・・UNAVAILです・・・。
RAID-Zを使い始めて早4年、遂にうちにも訪れてしまった、この恐怖の現象「RAIDリビルド中のHDD死亡お替わり」が。いつの間にかデグレってた事は何度かあったけど、UNAVAILは初めて見たよ……。幸いにもada0は脱落しただけで死んではおらず、SATAケーブル&電源抜き差しで無事復活というかresilveringなう(๑˃̵ᴗ˂̵)وなんですけども。心臓に悪いったらありゃしない。
それにしても、SATAコネクタの信頼性の低さはどうにかならないかなー。コンシューマ向けのHDD×7台でRAID組んでるのがそもそもの間違いではあるし、信頼性求めるならSAS使えって話でもあるけどさ、流石に家庭でSASはやり過ぎっつーかオーバースペックも良いとこでしょ。そんな金もないし。このあたりのイレギュラーさを差し引いても、SATAコネクタは緩み易過ぎると個人的には思う。もうちょっとガッチリとはまって欲しいもんだ。
とか何とか言ってるそばから、またada0が脱落してるし……。
無事リビルド完了(念のために言っておくと作業自体は随分前に終わってる。)
面白いログが取れたので記念ぱぴこ。
[Decomo@Freyja ~]$ zpool status zdata pool: zdata state: DEGRADED status: One or more devices is currently being resilvered. The pool will continue to function, possibly in a degraded state. action: Wait for the resilver to complete. scan: resilver in progress since Sat Sep 26 13:42:23 2015 4.51T scanned out of 14.7T at 376M/s, 7h51m to go 968G resilvered, 30.78% done config: NAME STATE READ WRITE CKSUM zdata DEGRADED 0 0 0 raidz1-0 DEGRADED 0 0 0 ada12p1 ONLINE 0 0 0 (resilvering) ada1p1 ONLINE 0 0 0 replacing-2 DEGRADED 0 0 370K 3139585788591315191 UNAVAIL 0 0 0 was /dev/gpt/data0-1a ada2p1 ONLINE 0 0 0 (resilvering) raidz1-1 ONLINE 0 0 0 ada5p1 ONLINE 0 0 0 block size: 512B configured, 4096B native ada3p1 ONLINE 0 0 0 block size: 512B configured, 4096B native ada4p1 ONLINE 0 0 0 block size: 512B configured, 4096B native logs mirror-2 ONLINE 0 0 0 ada14p4 ONLINE 0 0 0 ada15p4 ONLINE 0 0 0 cache ada14p5 ONLINE 0 0 0 errors: 4503902 data errors, use '-v' for a list
RAID-Zを構成するHDDが2台同時にリビルドされてた。流石ZFS、なかなか器用なことをしてくれる。これもブロック単位でチェックサムを持ってるお陰なのかしら?