Não Resolvido
Esta postagem tem mais de 5 anos
5 Mensagens
0
500
5 de novembro de 2018 17:00
R710 coolers diminuem até quase parado e temperatura aumenta
Saudações a todos. Estou com um problema estranho, tenho um r-710 Esse problema já se apresentou de duas formas:
1) Em Ambiente Linux somente texto De repente o servidor trava, e na tela as vezes aparecem caracteres estranhos com fundo colorido na tela. imediatamente todos os coolers diminuem drasticamente a velocidade, rodando de vagar que dá até pra enxergar as pás das hélices, e em consequência a temperatura vai aumentando muito. Mesmo abrindo a tampa os coolers não aumentam a velocidade, ignorando o chassi intrusion e o servidor não desliga pelo botão, mas somente desconectando da energia e religando depois dele esfriar por alguns minutos.
2) Em ambiente linux com área gráfica, e já fazendo testes para tentar achar o problema, experienciei de forma diferente. Estava rodando um teste de stress de processamento e rodando um video em full screen, e verificando a temperatura via ssh com o comando "sensors", depois de uma hora +- testando, me distrai com um cliente e quando olhei pro servidor de novo notei que o video estava com pixels coloridos fora de local, logo coloquei a mão e estava quente e não ouvia os coolers, consultei via ssh a temperatura e acusou 96c, não cheguei a abrir pra ver se os coolers aumentariam a velocidade, desliguei logo pelos cabos de força, e religuei dentro de uns 10 segundos, ai os coolers dispararam, e o servidor não dava video, deixei uns 2 minutos ele ligado com os coolers no máxima para baixar a temperatura rapido e depois desliguei da força por mais um minuto e religuei. Ligou normalmente.
No log da IDRAC pelo "CTRL + E" não mostra nada de anormal, fora os chassi intrusion e os power lost das fontes.
Já coloquei com outras memórias, e persiste, retirei processadores, removi pasta térmica velha adicionei pasta nova e persiste o problema.
Troquei também pasta térmica do norte bridge, mas ainda não testei depois disso, pensei que talvez ela seja a controladora de vídeo, e como dá erros gráficos pensei que talvez pudesse estar com dificuldade de refrigerar e pudesse desencadear o problema.
Tem alguma sugestão? O que posso fazer?
Desde já obrigado!
lwaclawiak
5 Mensagens
0
7 de novembro de 2018 01:00
ATUALIZAÇÃO:
Consegui fazer o upgrade de todos os firmware do servidor, utilizando um ISO de boot:
https://dell.app.box.com/v/BootableR710/folder/56656464835
Vou deixar agora o servidor em testes novamente, ele está instalado com um Debian linux 8.9 64 bits e rodará o comando "stress --cpu 8 -v" que ocupa 100% do processamento de cada um dos 8 núcleos e rodando também o filme do Avatar em full HD, apenas com a intenção de estressar a placa de vídeo também.
Sei que o servidor não é destinado a visualização de videos, mas como nas outras vezes que problema ocorreu houve alterações graficas tanto no modo grico como no terminal, eu desconfio desse controlador de video.
Assim que houver alguma novidade posto aqui.
Espero que em breve algum moderador da Dell possa me orientar sobre o caso.
Muito obrigado!
lwaclawiak
5 Mensagens
0
7 de novembro de 2018 05:00
ATUALIZÇÃO 2
Depois de rodar o avatar inteiro e deixar o processamento em 100% esse tempo todo, o erro não tornou a acontecer, porém hoje está um dia bastante fresco e percebi que a temperatura do núclo do porcessador não estava passando de 60 Celsius, aferido pelo comando sensors do Linux.
Obs: O servidor não está em produção, está em uma sala sem ar condicionado para efetuar os testes do que está acontecendo.
Como não estava fácil de replicar o erro, decido dar uma forcinha, obstrui parcialmente a entrada de ar e acompanhei a subida da temperatura pelo terminal, quando o núcleo do processador atingiu 70 Celsius o defeito ocorre. Repliquei várias vezes.
Sintomas:
Mesmo a temperatura subindo até chegar aos 70 Celsius, os coolers não aceleram, mantem-se em 3600rpm segundo a IDRAC, e também é possivel perceber que ele não mudam sua aceleração pelo barulho.
A temperatura mostrada na IDRAC e no display do servidor não passa dos 26° até atingir os 70° no processador, creio que a temperatura mostrada pelo visor e pela IDRAC seja a temperatura ambiente interna no servidor.
Quando o defeito ocorre o servidor trava o S.O, perco acesso ao IDRAC(ligado pela porta exclusiva), os coolers imediatamente baixam ainda mais a rotação ficam quase parados, o display do servidor fica somente com a luz azul de fundo, sem mostrar mais nada, o botão de desligar não funciona, ao abrir a tampa os coolers não aceleram como deveriam fazer, ermanecem quase parado, os processadores continuam a esquentar, dá pra sentir com a mão sobre os heatseeks que a temperatura continua subindo, então desligo o servidor removendo o cabos de força.
Se recoloco os cabos de força logo em seguida, o servidor liga, dispara os coolers mas não dá video, para que ligue corretamente necessito deixar desligado alguns minutos e religar.