Commencer une nouvelle conversation

Non résolu

Fermé

H

1 Rookie

 • 

2  messages

269

26 avril 2023 05:00

Coupure brutale sur des équipements PowerEdge M630/M620

Bonjour,

Au sein de l'entreprise dans laquelle je travaille, nous utilisons un Dell PowerEdge M1000e dans lequel sont installés 12 lames PowerEdge M630 et 4 lames PowerEdge M620.

Ces lames sont des serveurs hyperviseur utilisant proxmox avec environ 2-3 machines virtuelles présentes sur chaque lame.

Ces équipements fonctionnent continuellement pour que nos clients utilisent les machines virtuelles.

De temps à autre, nous constatons que plusieurs lames s'arrêtent de fonctionner en même temps, ce ne sont pas toujours les mêmes qui sont impactés et nous sommes obligés de les redémarrer manuellement.

Egalement, le problème peut survenir lorsque nous décidons de faire une migration de machine virtuelle d'une lame proxmox vers une autre, la coupure se produit même sur les lames qui ne sont pas concernées par cette migration.

Nos premières analyses ont été de vérifier l'intégrité des composants des équipements via les interfaces web CMC/Idrac, aucun composant ne semble en défaut, tous les voyants sont au vert.

Côté CMC, en regardant les logs dans le Journal du matériel, il y a des messages récurrents du type :
-Power supply 2 failed
-The power input for power supply 2 is lost
-Power supply 2 is operating normally

Ces alertes se produisent seulement durant quelques secondes et cela peut être sur d'autres alimentation également.

Nous possédons 6 alimentations du modèle CF4W2 qui font 2700W chacune et d'après la CMC l'intégrité des alimentations est au vert.

Sur l'interface cmc, aucun message d'erreur n'est remonté concernant l'intégrité du chassis ou sur une lame en particulier.

En allant voir sur les idrac des lames impactés, voici les informations que je peux observer dans les logs lors d'un incident:

-SYS1003
System CPU Resetting

-SYS1001
System is turning off.

J'ai également regardé la consommation énergétique et la température sur chaque idrac qui est loin de dépasser le seuil d'alerte d'avertissement/critique.

Actuellement les équipements n'ont pas eu d'incident depuis 6 jours mais il se peut que cela arrive de nouveau sans prévenir.

Avec tous ces éléments, pourriez-svp m'apporter votre aide sur ce sujet ? Quelles autres pistes d'investigations puis-je explorer ?

Merci à vous et bonne journée.

Moderator

 • 

9.4K  messages

26 avril 2023 10:00


Horace34,

 

Si le problème est intermittent, il sera plus difficile à diagnostiquer. Je commencerais cependant par m'assurer que le M1000e, ainsi que chacune des lames, sont à jour et que tout est en ordre. Je pose cette question car la mise à jour des unités est le meilleur moyen d'accroître la stabilité. 

 

Faites-moi savoir ce que vous constatez. 



 

1 Rookie

 • 

2  messages

27 avril 2023 00:00

Bonjour Chris,

Merci pour votre aide.

 

Je vais regarder si tout est effectivement à jour.

Au niveau du M1000e, je possède la version 6.21.200.201909170048.

Cela semble être la plus récente, je ne vois pas de nouvelles mises à jour à télécharger sur le site de Dell.

Je vais vérifier si tout est ok au niveau des lames

Aucun événement trouvé !

Top