1 Rookie
•
36 メッセージ
0
49
2025年2月14日 07:40
PowerScale CloudPoolsの動作について
障害発生時のCloudPools動作についてご教示いただきたいのですが、
たとえばネットワーク障害が発生して、クラウドへの疎通性が無い状態でCloudPools(SmartPools)ジョブが動作すると、何度かリトライを実行してからジョブ自体がFailするかと思うのですが認識相違ございませんでしょうか。
上記認識が正しい場合、Fail回数について調べる方法やドキュメントがあればご教示いただけると大変助かります。
また、CloudPoolsの推奨構成について、
以下ドキュメントを見ると、CloudPoolsを利用するクラスタではNANON構成は推奨されない(全てのノードをネットワークに接続する)ような記述があるのですが、こちらはNANON構成だと転送/リコールがうまくいかないということでしょうか?
(全ノードで処理が行われるため、クラウドへの疎通性が無いノードがあるとエラーになるということでしょうか・・?)
https://infohub.delltechnologies.com/nl-nl/l/powerscale-cloudpools-and-ecs-7/powerscale-configuration-2/
大変お手数ではございますが、ご教示いただけますと幸いです。
イベントは見つかりませんでした!
ayas
Community Manager
•
7.2K メッセージ
0
2025年2月17日 01:02
Naoitoさん
ネットワーク障害が発生して、クラウドへの疎通性が無い状態でCloudPools(SmartPools)ジョブが動作すると、何度かリトライを実行してからジョブ自体がFailするかと思うのですが認識相違ございませんでしょうか。
⇒私も同じ認識です。一回のネットワーク瞬断でバックグラウンドで実行されているjobが失敗するとは思えないです。
参考:OneFS SmartPools and the FilePolicy Job
Fail回数について調べる方法やドキュメントがあればご教示いただけると大変助かります。
⇒ CloudPools(SmartPools)ジョブFailに関してはあまたKBが存在しますがケースバイケースとなり
一定の基準はないようです。ログを確認するのがよさそうです。
参考:Dell PowerScale: CloudPools and Google Cloud
Page 33 CloudPools logs
Most normal daemon log is at /var/log/isi_cpool_d.log
The log of IO to the cloud is at /var/log/isi_cpool_io_d.log
Key management log is at /var/log/isi_km_d.log
CloudPools job (Job Engine) log is at /var/log/isi_job_d.log
Dell EMC Knowledge Article 000019225 : Cloudpools Jobs and Job Engine Jobs
Failures for Cloud jobs you can view error messages in
/var/log/messages and /var/log/isi_cpool_d.log.
CloudPoolsの推奨構成
CloudPoolsを利用するクラスタではNANON構成は推奨されない(全てのノードをネットワークに接続する)ような記述があるのですが、こちらはNANON構成だと転送/リコールがうまくいかないということでしょうか?
⇒ご認識の通りです。
CloudPoolではnetwork poolのすべてのNodeを順番に使用してCloudへのアクセスを試みるためNANON構成である場合その接続の可能性が狭められることになります。
参考:Dell EMC Knowledge Article 000213018 : Powerscale : Cloudpools NANON Problems
ayas
Community Manager
•
7.2K メッセージ
0
2025年2月19日 02:37
Naoitoさん
ご返信を有難うございます。
検証環境で、ネットワーク接続を断した状態(ifaceを削除し仮想コンソールから接続)でSmartPoolsジョブを実行したところ、SmartPoolsジョブはSucceededとなり、isi cloud jobs listで確認できるarchiveやrecallは1時間程runningのままだったのですが、FAILする条件のようなものはあるのでしょうか・・?(単純にリトライ回数の上限に達してないとかでしょうか・・?)
クラウド側のデータを削除した状態でrecallしようとするとrecallジョブがFAILとなったので、ネットワーク断のみではFAILにはならないとかがもしあれば教えていただきたいです。
(ネットワーク断時に、cloudジョブはFAILとならなかったのですが、/var/log/isi_cpool_d.logでNetwork connection failedのログが出力されたことは確認しております)
⇒SmartPoolが成功し、CloudPoolがIFを削除してもFailとはならなかったのは、IFが削除された時点で転送されるべきデータが他のNodeに移動され,CloudPoolのやり取りと関係なかったためではないでしょうか。(仕様の動き)
また他のNodeでもCloudPoolは行われているでしょうし。(次のご質問にもあるように)
念のためご確認となるのですが、最終的には全ノードのネットワークポートから転送/リコールを実施しているような理解であっておりますでしょうか?
(All nodes will participate in cloudpools activity. とあるので、認識通りかなとは思いますが。。)
⇒ご理解の通りです。
naoito
1 Rookie
•
36 メッセージ
0
2025年2月17日 09:12
@ayas さん
ご回答いただき誠にありがとうございます。
> CloudPools(SmartPools)ジョブFailに関してはあまたKBが存在しますがケースバイケースとなり
> 一定の基準はないようです。ログを確認するのがよさそうです。
⇒ログの確認手順についてご教示いただき誠にありがとうございます。
検証環境で、ネットワーク接続を断した状態(ifaceを削除し仮想コンソールから接続)でSmartPoolsジョブを実行したところ、
SmartPoolsジョブはSucceededとなり、isi cloud jobs listで確認できるarchiveやrecallは1時間程runningのままだったのですが、
FAILする条件のようなものはあるのでしょうか・・?(単純にリトライ回数の上限に達してないとかでしょうか・・?)
クラウド側のデータを削除した状態でrecallしようとするとrecallジョブがFAILとなったので、ネットワーク断のみではFAILにはならないとかがもしあれば教えていただきたいです。
(ネットワーク断時に、cloudジョブはFAILとならなかったのですが、/var/log/isi_cpool_d.logでNetwork connection failedのログが出力されたことは確認しております)
>ご認識の通りです。
>CloudPoolではnetwork poolのすべてのNodeを順番に使用してCloudへのアクセスを試みるためNANON構成である場合その接続の可能性>が狭められることになります。
⇒KBについてご教示いただき誠にありがとうございます、大変参考になります。
念のためご確認となるのですが、最終的には全ノードのネットワークポートから転送/リコールを実施しているような理解であっておりますでしょうか?
(All nodes will participate in cloudpools activity. とあるので、認識通りかなとは思いますが。。)
細かな質問で大変恐縮ではございますが、ご教示いただけますと幸いです。