Comenzar una conversación nueva

No resuelto

HT

1 Rookie

 • 

18 Mensajes

54

11 de febrero de 2025 20:20

No reconoce el GPU NVIDIA A2 en un servidor DELL POWEREDGE R750

Buenas, favor su colaboración, ya actualizamos los firmaware requeridos y aun no reconoce el GPU NVIDIA A2 en un servidor DELL POWEREDGE R750.

Desde la bios intentamos y desde Red Hat que es su sistema operativo.

Les paso el link de la tarjeta que nos indica que es compatible con el servidor.

https://marketplace.nvidia.com/en-us/enterprise/qualified-system-catalog/?gpu=A2&manufacturer=Dell+Technologies&page=2&limit=15

La tarjeta que tenemos es la PG179 NVIDIA A2 Tensor Core GPU

https://www.nvidia.com/en-us/data-center/products/a2/

Y lo queremos instalar en RISER 1, favor su colaboración, muchas gracias.

Moderator

 • 

3.9K Mensajes

12 de febrero de 2025 02:47

Hola,

 

¿Puedes decirnos cuál es el firmware que se ha actualizado, cuál es la versión actual de BIOS y iDRAC/LCC.

Cuál es su especificación de la fuente de alimentación actual, me puede proporcionar el DPN #.

 

¿Cuál es su configuración actual del Riser basado en esta guía del usuario: https://dell.to/41cGHtl. ¿Cuántos procesadores hay instalados en el servidor? 

 

¿Tiene iDRAC enterprise? - ¿Tiene acceso?

1 Rookie

 • 

18 Mensajes

12 de febrero de 2025 07:38

Hola Buenos dias, paso la información por favor:

1.- ¿Puedes decirnos cuál es el firmware que se ha actualizado, cuál es la versión actual de BIOS y iDRAC/LCC.

2A.- Cuál es su especificación de la fuente de alimentación actual,

Y del en sí este es el GPU que se instaló en RISER 1,

 2B. me puede proporcionar el DPN #.

El DPN # es: 0FYK80

3A. ¿Cuál es su configuración actual del Riser basado en esta guía del usuario: https://dell.to/41cGHtl. ¿Cuántos procesadores hay instalados en el servidor? 

R.- El GPU está instalado en Riser 1 en R1B  slot 2, tenemos Risers disponibles R1A, R3B, R4A, R4B, una pregunta ¿Cómo verifico en qué configuración esta instalado el GPU? y qué significa en configuración: Config0. with 4x FH, Config1. with 6x FH and 2x LP y Config2-2. with 4x FH and 2x LP por ejemplo.

3B.  ¿Cuántos procesadores hay instalados en el servidor? 

R.- Hay dos procesadores instalados

338-CBWO : Intel Xeon Gold 5318Y 2.1G, 24 C/48T, 11.2GT/s, 36M Cache, Tu rbo, HT (165W) DDR4-2933

4. ¿Tiene iDRAC enterprise? - ¿Tiene acceso?

R.- 385-BBQV : iDRAC9, Enterprise 15G, si tenemos acceso a iDRAC.

Muchas gracias, estamos atentos, saludos,

1 Rookie

 • 

18 Mensajes

12 de febrero de 2025 08:00

Al parecer no cargo las imaganes pero le detallo nuevamente:

1.- ¿Puedes decirnos cuál es el firmware que se ha actualizado, cuál es la versión actual de BIOS y iDRAC/LCC.

R.- BIOS VERSION: 1.15.2

iDRAC IPV4: 10.1.1.230(DEDICADO)

Y sale este error al reiniciarlo:

UEFI0056

Message
Se ha producido un error de PCIe.
Descripción detallada
El error de PCIe se registra durante la autoprueba de encendido (POST). El error podría haber ocurrido durante la POST actual o anterior.
Acción de respuesta recomendada
Verifique el registro de sucesos del sistema (SEL) para identificar el dispositivo PCIe que no funciona correctamente y, a continuación, actualice el firmware del dispositivo.
Y también el error UEFI0067

2. Cuál es su especificación de la fuente de alimentación actual, me puede proporcionar el DPN #.

R.- 450-AJHG : Dual, Hot-Plug,Power Supply Re dundant (1+1), 1400W, Mixed Mo de

El DPN # es: 0FYK80

El modelo del GPU es: PG179  NVIDIA CORP.

https://www.nvidia.com/en-us/data-center/products/a2/

3A. ¿Cuál es su configuración actual del Riser basado en esta guía del usuario: https://dell.to/41cGHtl. ¿Cuántos procesadores hay instalados en el servidor? 

R.- El GPU está instalado en Riser 1 en R1B  slot 2, tenemos Risers disponibles R1A, R3B, R4A, R4B, una pregunta ¿Cómo verifico en qué configuración esta instalado el GPU? y qué significa en configuración: Config0. with 4x FH, Config1. with 6x FH and 2x LP y Config2-2. with 4x FH and 2x LP por ejemplo.

3B.  ¿Cuántos procesadores hay instalados en el servidor? 

R.- Hay dos procesadores instalados

338-CBWO : Intel Xeon Gold 5318Y 2.1G, 24 C/48T, 11.2GT/s, 36M Cache, Tu rbo, HT (165W) DDR4-2933

4. ¿Tiene iDRAC enterprise? - ¿Tiene acceso?

R.- 385-BBQV : iDRAC9, Enterprise 15G, si tenemos acceso a iDRAC.

Muchas gracias, estamos atentos, saludos,

Moderator

 • 

3.9K Mensajes

12 de febrero de 2025 09:09

Hola,

 

¿Puedes actualizar el firmware del servidor. https://dell.to/4gIxCwG. 

La última BIOS es 7.20.10.05 y el iDRAC es 1.16.2

 

La fuente de alimentación parece correcta, necesitarás 1400W o más para instalar la configuración GPU.

FH significa Full Height. LP significa Low Profile. Tendrás que instalar el elevador de acuerdo con la guía del usuario del servidor. Según la guía de instalación, necesitarás la configuración 3-2: R1A + R2B + R3B + R4A O la configuración 4-2: R1C + R2A + R3A + R4A O instalar la GPU nVIDIA A2 en la ranura 2.

1 Rookie

 • 

18 Mensajes

12 de febrero de 2025 14:31

Buenos días, muchas gracias por su respuesta, estamos realizando las verificaciones en este momento.

Una consulta al respecto:  necesitarás la configuración 3-2: R1A + R2B + R3B + R4A O la configuración 4-2: R1C + R2A + R3A + R4A O instalar la GPU nVIDIA A2 en la ranura 2.

Los Risers deben estar eb ese orden para esas configuraciones?.

EL service Tag. del servidor es: <private information removed by Mod>

Reconoció la tarjeta en slot 2 en R1B, y los demás risers instalados son R3B y R4B pero sale este error al reiniciarlo:

UEFI0056

Message
Se ha producido un error de PCIe.
Descripción detallada
El error de PCIe se registra durante la autoprueba de encendido (POST). El error podría haber ocurrido durante la POST actual o anterior.
Acción de respuesta recomendada
Verifique el registro de sucesos del sistema (SEL) para identificar el dispositivo PCIe que no funciona correctamente y, a continuación, actualice el firmware del dispositivo.
Y también el error UEFI0067

Estamos atentos, muchas gracias, tenemos la presión encima. mil disculpas.

(Editado)

Moderator

 • 

4.4K Mensajes

12 de febrero de 2025 16:17

Hola

 

¿Puedes confirmar que estás usando una de estas GPU?

 

Son los únicos A2 que se ven válidos para el servidor R750:

 

Part Number

Part Description

Functional Description

GRAPHICS CARD

 

 

9X0F6

CRD,ACLTR,NVIDIA,A2,16GB,60,FH

Card, Accelerator, 60 Watts, 16GB, NVidia Ampere A2

MG5JX

CRD,ACLTR,NVIDIA,A2,16GB,V2,FH

Card, Accelerator, Full Height, 16GB, NVidia Ampere A2, Video, nVIDIA Version 2

 

1 Rookie

 • 

18 Mensajes

12 de febrero de 2025 16:33

Buenas esta es la tarjeta A2 instalada.

El modelo del GPU es: PG179  A2 NVIDIA CORP.

Card, Accelerator, 60 Watts, 16GB, NVidia Ampere A2

https://www.nvidia.com/en-us/data-center/products/a2/

https://www.nvidia.com/content/dam/en-zz/solutions/data-center/a2/pdf/a2-datasheet.pdf

https://www.nvidia.com/content/dam/en-zz/solutions/data-center/a2/pdf/a2-product-brief.pdf

Muchas gracias estamos atentos.

Moderator

 • 

4.4K Mensajes

12 de febrero de 2025 18:19

Hola

 

Para: UEFI0056 - ¿Ha comprobado el registro de eventos del sistema (SEL) para identificar el dispositivo PCIe que no funciona correctamente?

 

Y para el error UEFI0067, ¿qué dispositivo PCI se llama?

Se observa un error de entrenamiento de enlace PCIe en ??? y el enlace del dispositivo está deshabilitado.

 

1 Rookie

 • 

18 Mensajes

12 de febrero de 2025 19:50

Buenas dentro de la configuración 1 segun el manual me sale esto:

Config1. with 6x FH and 2x LP

Y para el error UEFI0067, ¿qué dispositivo PCI se llama, slot 3 (bus: 0x4A Dev:0x02 F:0x00) el link esta desahabilitado?

Se observa un error de entrenamiento de enlace PCIe en ??? y el enlace del dispositivo está deshabilitado.

Moderator

 • 

4.4K Mensajes

12 de febrero de 2025 20:45

¿Qué hay en la ranura 3?

¿Lo has eliminado y has comprobado los resultados?

Pruebe la GPU en la ranura 7

1 Rookie

 • 

18 Mensajes

13 de febrero de 2025 19:02

Buenas, la ranura 3 yo pienso descartado sale muchos errores, se cambio a configuración 2.2 según el manual:

https://www.dell.com/support/manuals/es-es/poweredge-r750/per750_ism_pub/expansion-card-installation-guidelines?guid=guid-7ebabe8a-8519-4bb7-aeab-3f17dd2a18e8&lang=en-us&dgc=sm&cid=1595898&lid=spr16110068308&refid=sm_COMMUNITY_spr16110068308&linkId=744984379

Se cambió a slot 7 en el servidor al cambiarlo reconoce el GPU A2 en el iDRAC pero lo reconoce en PCIe slot 5 no entiendo por qué?? y sale lo sgte., adjunto imagen:

PCI1318, Un fatal error fue detectado sobre un componente en el bus 151 device 4 function 0.

PCI1363, PCI1318, PCI1360, PST0089 y UEFI0056

Muchas gracias, estamos atentos, saludos,

(Editado)

Moderator

 • 

4.4K Mensajes

13 de febrero de 2025 20:06

Hola

 

En el enlace que publicaste:

Desplázate hacia abajo hasta:

     Tabla 6. Configuración 2-2:

     Desplázate hacia abajo hasta:

            NVIDIA (GPU A2, 16 Gb, 60 W)

            La prioridad de la ranura para la GPU es la ranura 7, 2

             No ranura 5

 

1 Rookie

 • 

18 Mensajes

13 de febrero de 2025 20:17

Buenas, si esta en la ranura 7 como lo indiqué en el mensaje anterior.

Se cambió en el servidor a la ranura 7, Riser 4 fisicamente segun el manual pero en el iDRAC lo reconoce el GPU A2 en la ranura 5 no comprendo por qué?? y sale lo indicado arriba en las imaganes.

Muchas gracias, estamos atentos

Moderator

 • 

4.4K Mensajes

13 de febrero de 2025 20:45

No entiendo si está en la ranura 7, está informando la ranura 5

 

La ranura 2 también es una ranura aceptable. ¿Puedes probar eso y verificar los informes?

 

1 Rookie

 • 

18 Mensajes

13 de febrero de 2025 20:56

Claro que si, hoy no pudimos trabajar en el servidor porque hay varios servicios ahí mañana nos avisan y lo cambio a la ranura 2 y envío los informes de inmediato, muchas gracias.

Hicimos todas las pruebas que las tablas indican en el manual, las configuraciones Table 4. Configuration 1: R1B + R2A + R3B + R4B y de las Table 6. Configuration 2-2: R1A + R2A + R3B + R4A (HL), porque contamos con esos Risers disponibles.

Saludos,

¡No se encontraron eventos!

Top