記憶域階層のSSD層の脱落で記憶域が崩壊し復旧できなかった話

年の瀬も迫る2022年12月26日の昼下がり、珍しく携帯電話が鳴った。ガラケーから電話帳を移しておらず相手は不明。だが、実家の光回線工事のやり取りやらをしていた時期ということもあり、出ざるを得ない。

「はい、もしもし──」
「どーもー、○○です。お世話になっております。」
「あ、どうも、お世話になっております。」

誰かと思えば、自分がインフラ周りの面倒を見てる会社の知人シャチョー。基本はSlackでのやり取りであるからして、平日の昼間に直電とは嫌な予感しかしない。

「なんかファイルサーバーに接続できなくなったみたいで」
「おぅ、マジすか」
「金曜日までは大丈夫だったみたいなんですけど…」
「すぐに確認したいところですが、運悪く今日は出社中でして…」

弊社は原則リモート勤務なので、こういう時でも本来ならお家で確認ができるのであるが、年末対応やらなんやらで出社中だった。さすがに会社のネットワークからsshするのは憚られた。

「分かりました、では夜お願いします」
「承知しました。××さんに詳細確認してみます」

と、そんなやり取りをして終話。

状況的に社内ネットワークないし当該サーバのネットワークの不調かなーと考えつつ、iPadでSlackを開き状況を聞いてみるとBIOS画面でリブートを繰り返しているとのこと。ブートドライブはIntel DC S3700 SSD×2でH/W RAIDのミラー構成だったので、それが起動しないってことは割と重症、というかガチ障害である。このミラードライブは記憶域階層のSSD層としても使っているため、データの保全がヤバい予感しかなかったが、金曜日夜のデータバックアップで直近の作業にひとまず支障なしとのことだったので、最悪の事態は免れた。

終業後、SSD死亡を想定しヨドバシで取り急ぎSSDを調達し一路知人会社へ向かった。こういう時、オフィスが秋葉原だと便利ですね。

20時過ぎに到着。とりあえず問題のサーバのBMCログを確認すると、12/19にSSDペアの片方が脱落、12/25にもう一方が脱落し、システムがクラッシュしたようだ。脱落の原因は不明。同じエンクロージャ内のHDDは何の問題もないし、こんな立て続けにSSDだけが脱落するとは偶然にしては出来過ぎな気がする。何かしらバグを踏んだか?

SSDを別マシンで確認してみても問題なく認識するし、S.M.A.R.T.的にも問題は見当たらなかった。というわけで、SSDはそのまま戻し、障害発生で無効となっていた仮想ドライブを有効化したら、幾度かの自動chkdskを経て、何とか元のWindows Serverは起動した。

ところが肝心のデータドライブが見えていない。これはまぁディスクの管理でDドライブをオンラインにして直ぐに解消したが、今度は認識したDドライブの容量が変で、開くこともできないという状態。

こちらも何度かのchkdskで開けるようにはなったものの、殆どのファイルは失われる結果に終わった。ミラーの仮想ドライブの脱落だから、仮想ドライブさえ元に戻せれば殆どのファイルは復元できるかなー?と楽観的に考えていたが、そう甘くはなかった……

クラッシュ前の営業日分の日次バックアップが完全に取れていたのは本当に不幸中の幸い、転ばぬ先の杖、備えあれば患いなしだった。もし取れてなかったと思うと、肝が冷えるなんてレベルじゃない。バックアップマジ重要。

記憶域は障害発生時の情報が無くてさっぱり分からん。

バックアップから20TBの書き戻しは確定し、元のWindows Serverの環境を維持する理由もなくなった。

良い機会なので、Proxmox VEでRAID-Zなストレージバックエンドを用意し、仮想マシンとしてWindows Serverのファイルサーバを構築しなおすことにした。H/W RAIDとも当然おさらば、単なるHBAとして働いてもらおう。やはりZFSしか勝たん!

ついでにCPUをXeon E5-2650v4に換え、メモリを144GBに増設し、仮想化基盤として整備した。