差分

このページの2つのバージョン間の差分を表示します。

この比較画面にリンクする

blog:2021:2021-11-19 [2021-11-19 18:39]
Decomo 作成
blog:2021:2021-11-19 [2021-11-24 09:54] (現在)
Decomo
行 1: 行 1:
-====== 空き容量0でZFSが壊れた?Input/Output errorが発生 ======+====== 空き容量0でZFSが壊れた?Input/Output errorが発生→再起動で直った ======
  
 不注意でProxmox VEのZFSプールを使い切り、空き容量がゼロという状態になってしまった。すべてのデータセットのAVAILが0という本物のゼロである。VMのディスクがthinで図らずもオーバーコミット状態となっており、VM内で物理容量以上のファイルコピーを行ってしまったのが原因。当然ながらVMは固まるわ、PVEもWebコンソールから何もできないわで超焦った…。 不注意でProxmox VEのZFSプールを使い切り、空き容量がゼロという状態になってしまった。すべてのデータセットのAVAILが0という本物のゼロである。VMのディスクがthinで図らずもオーバーコミット状態となっており、VM内で物理容量以上のファイルコピーを行ってしまったのが原因。当然ながらVMは固まるわ、PVEもWebコンソールから何もできないわで超焦った…。
行 21: 行 21:
  
 容量ゼロをトリガーにLinux側とZFS側で何らかの齟齬が発生し、容量の回復がLinux側に伝わってないとかが原因なら再起動で直りそうなものの、シャットダウンしたが最後、完全に壊れてPVEが立ち上がらなくなる可能性もありそうで恐ろしい。この記事も書いているメイン環境は、そのPVE上で動いているのでPVEの死=メイン環境の死なので慎重にならざるを得ない。 容量ゼロをトリガーにLinux側とZFS側で何らかの齟齬が発生し、容量の回復がLinux側に伝わってないとかが原因なら再起動で直りそうなものの、シャットダウンしたが最後、完全に壊れてPVEが立ち上がらなくなる可能性もありそうで恐ろしい。この記事も書いているメイン環境は、そのPVE上で動いているのでPVEの死=メイン環境の死なので慎重にならざるを得ない。
 +
 +----
 +**(2021-11-24 追記)**
 +
 +意を決してPVEマシンを再起動してみたら、Input/output errorは出なくなった。何事もなかったようにVMも動いている。
 +
 +ZFSではCoWの関係上、一般的に空き容量がプール容量の10~20%((昨今の2桁テラバイト級のプールなら5%程度でも良さそうだが))を切ると危険水域とされている。予めプール全体にquotaをかけておけば、今回のようなヤベェ自体は予防できるだろう。
  • blog/2021/2021-11-19.txt
  • 最終更新: 2021-11-24 09:54
  • by Decomo