vSanDatastoreに2ディスクグループ存在した際の障害時の許容範囲について

ご担当者様

ホストサーバ3台にてvSAN構成を組んでいる環境があります。
各ホストサーバには、SSDが12本積んであります。
vSanDatastoreには、2ディスクグループ作成し、
各ディスクグループにキャッシュx1、キャパシティx5のディスクグループをx2作成しています。
ディスクポリシーとしてはFTT1としているのですが、
各ディスクグループでのディスク障害発生時、キャパシティディスクは障害としては何本まで許容されるかご教授頂けますでしょうか。

また、同一ホストにてキャッシュディスクx2が障害となった場合、
ディスクグループとしては別のホストがキャッシュ処理しキャパシティディスクの利用に支障は発生しない認識で問題ありませんでしょうか。

レスポンス(3)

kwmt

4 Operator

•

886 メッセージ

1

2022年1月10日 23:00

vSAN のデータ保護の基準は VM 単位（VMDK 単位）となり、
FTT1 の場合は、1つの障害、FTT2 の場合は2つの障害、といった形で障害の数は ESXi ホスト、ドライブひっくるめた数でカウントされます。

基本的には仮想マシン毎で見た場合の VMDK コンポーネントの配置は1ホストにつき1つのみとなり、1つのホストにディスクグループが複数ある場合でも同じです(vSAN 7.0u3 で実装された 2Node vSAN 向けの Nested Fault Doamin 構成の場合は別)。
そのため、1台の ESXi ホストの中であればドライブが同時に何本故障しても対象 ESXi ホストにデータを置いている仮想マシンのデータは別のホストにもデータがあるので継続稼働が可能です。

複数のホストで同時に障害が発生した場合は、FTT で定義した分の障害からは保護されます。

> ディスクグループとしては別のホストがキャッシュ処理しキャパシティディスクの利用に支障は発生しない認識で問題ありませんでしょうか

いいえ、キャッシュ層ドライブが Fail した場合は、対象のディスクグループがオフラインとなり、IO の対象から除外されます。
明示的な Fail (SSD や HDD が Smart 等センサーでエラーを出す等) の場合は vSAN 上で Degraded とマークされ、即時に残ったデータからのデータ再構成が開始されます。

作業などで間違えて SSD を抜いてしまった場合などは Absent としてマークされ、デフォルト値では 60分以内にドライブを再度戻せばデータはそのまま利用され、60分以上経過した場合はデータの再構成が開始されます。

S

seek

1 Rookie

•

14 メッセージ

0

2022年1月20日 22:00

＞いいえ、キャッシュ層ドライブが Fail した場合は、対象のディスクグループがオフラインとなり、
＞IO の対象から除外されます。
下記のページでは「vSAN はそのキャッシュデバイスを含むディスクグループのオブジェクトのアクセシビリティを評価します。再構築が可能で、[許容されるプライマリレベルの障害数] が 1 以上に設定されている場合は、別のホストでオブジェクトを再構築します。」とありましたので、
再構築が実行されれば再度IO的には問題ないのかと思っていたのですが。。。
https://docs.vmware.com/jp/VMware-vSphere/7.0/com.vmware.vsphere.vsan-monitoring.doc/GUID-35A4B700-6640-4519-A885-440A1AE8D3BD.html

＞明示的な Fail (SSD や HDD が Smart 等センサーでエラーを出す等) の場合は vSAN 上で
＞Degraded とマークされ、即時に残ったデータからのデータ再構成が開始されます。
こちらのデータ再構成が完了すれば縮退的にIOは可能になるのでしょうか。

それとも障害発生したディスクグループは機能せず、もう片方のディスクグループの容量のみとあんるのでしょうか。

kwmt

4 Operator

•

886 メッセージ

1

2022年1月21日 00:00

> 下記のページでは「vSAN はそのキャッシュデバイスを含むディスクグループのオブジェクトのアクセシビリティを評価します。
> 再構築が可能で、[許容されるプライマリレベルの障害数] が 1 以上に設定されている場合は、別のホストでオブジェクトを再構築します。」とありましたので、

キャッシュドライブが故障・オフラインとなったディスクグループは IO から外され、
RAID1 / RAID5 / RAID6 で保護され別の ESXi ホストの別のディスクグループに保存された VM のデータへアクセスが継続されます。
その上で、その残っている VM データが別のホストの空いている領域に再ミラーや RAID5/6 の再構成が走り、指定された保護レベルに復旧します。

「ディスクグループとしては別のホストがキャッシュ処理しキャパシティディスクの利用に支障は発生しない」

この意味合いは、「別のホストがキャッシュ処理」しという部分、別のホストのキャッシュドライブが IO を受け、キャッシュドライブが壊れたホストの「キャパシティディスクの利用に支障は発生しない」というように読み取りましたので上記の様な回答となりました。

> 再構築が実行されれば再度IO的には問題ないのかと思っていたのですが。。。

VM データが RAID の一部が欠けている状態でも IO は継続され、データの再配置・再構成後は冗長性も元に戻ります。

> ＞明示的な Fail (SSD や HDD が Smart 等センサーでエラーを出す等) の場合は vSAN 上で
> ＞Degraded とマークされ、即時に残ったデータからのデータ再構成が開始されます。

> こちらのデータ再構成が完了すれば縮退的にIOは可能になるのでしょうか。
> それとも障害発生したディスクグループは機能せず、もう片方のディスクグループの容量のみとなるのでしょうか。

キャッシュドライブが壊れたディスクグループは、壊れたキャッシュドライブを交換してディスクグループを再作成する必要があります。
壊れている間は、他のディスクグループ、他のホストで失われた VM のデータが再構成され IO は継続され、
ディスクグループ復旧後に改めてデータのリバランスなどで再作成したディスクグループにデータが配置されます。

そのためここでは「障害発生したディスクグループは機能せず、もう片方のディスクグループの容量のみとなる」が正となります。

ディスクグループのキャッシュドライブ障害の動きを絵で表すと以下の様になります。
※ 以下のイメージは重複排除無効、または圧縮のみを有効にした場合です。
※ 重複排除を有効にした場合はキャパシティドライブの単障害においても対象のディスクグループ障害として扱われます（ディスクグループ内で重複排除データを分散配置しているため）

■ 1. 正常時