S'identifier - S'inscrire - Ecrire un article - Contact

Un gros grogne encore

Par Jean-Luc • Aide • Mercredi 06/02/2008 • 6 commentaires  • Lu 1967 fois • Version imprimable


Voici maintenant plus d'une heure que le serveur des gros sites est inaccessible. La procédure automatique de redémarrage après un certain temps d'inactivité ne fonctionne donc pas, ou n'a pas été réactivée. Ou c'est plus sérieux. S'il faut s'attendre à tout après l'épisode du remplacement des cartes serveur des nouveaux serveurs, je penche tout de même plutôt pour un des nouveaux process nocturnes qui s'est mal déroulé. J'en profite d'ailleurs pour m'élever contre cette pratique : entre les services qui lancent leurs opérations de maintenance tout le weekend (sur tout le spectre des fuseaux horaires) et la plateforme qui lance je ne sais quoi la nuit (GMT+2), j'administre quand moi ? Assez du diktat des heures de bureau !

EDIT : il vient de repartir. C'est donc plus d'1h30 d'interruption de service. Un rapport d'incident ? Et comment est-il reparti ? Pour info, il y avait eu plusieurs alertes dans la journée mais de courtes durées.

Commentaires

Rapport d'incident pour grognon par Stephane le Mercredi 06/02/2008 à 05:12

Stephane Le serveur numéro 2 a des problèmes hardware, que je suis en train de régler avec OVH. Ils étaient intervenus il y a une dizaine de jours, ce qui a résolu visiblement seulement temporairement le problème, puisque il recommence aujourd'hui. En gros : le serveur reboote pour une raison inconnue à peu près toutes les heures. Lors d'un de ces reboots, il s'est bloqué sur un écran noir. Ca n'a rien à voir avec la procédure de relance automatique (qui est logicielle) ou l'un des "nouveaux process nocturnes". Il n'y a pas de nouveau process nocturne.

Le serveur est reparti parce que j'ai contacté le support d'OVH et qu'un de leur technicien est intervenu. Voilà ce qu'il en a dit :

A la date 2008-02-06 02:44:37, nous avons constaté un défaut
sur votre serveur et nous avons programmé une intervention afin de
palier à ce defaut. L'intervention sur votre serveur a été terminée 
à la date: 2008-02-06 03:55:57

Voici le détail de l'intervention réalisée: Date: 2008-02-06 02:44:37 : ns28423.ovh.net detected as down Date 2008-02-06 03:37:19, Antoine made Server check: le serveur a demarrer avec un check des disques forced, check ok, boot sur DD ok, ping ok services ouverts

A titre informatif, le temps de resolution de l'incident a ete de: 1h 11m 20s
Il y a une dizaine de jours :
Bonjour,

un de nos techniciens est intervenue sur le serveur.
Le problème doit être résolue.
La machine étais bloqué sur écran noir. Dépuis le reboot hard de notre technicien la machine en fait plus de reboot.
Merci de me contacter de suite si le serveur recommence de faire des reboots tout les 60 minutes.
Dans ce cas je dois faire vérifier la carte mère et le BIOS.

Cordialement,
Angie

Plus de détails sur le problèmes des cartes mères : http://travaux.ovh.net/?do=details&id=1902

Conclusion : ce n'est pas encore réglé, c'est en cours de résolution, c'est probablement cette série de carte mère qui cause plein de problèmes, je n'y peux rien de plus que ce que je fais déjà, ça devrait être réglé bientôt avec un changement de carte mère.
Il n'y a plus que 3 sites sur ce serveur pour l'instant. Si les problèmes se prolongeaient avec le serveur 2, je les mettrai tous sur le serveur 1 qui a l'air de bien tenir depuis qu'il a une nouvelle carte mère. Le serveur 2 a toujours une ancienne carte, mais d'une autre série.


Re: Rapport d'incident pour grognon par Jean-Luc le Mercredi 06/02/2008 à 06:00

Jean-Luc

je n'y peux rien de plus que ce que je fais déjà
Ce n'est pas moi qui vais t'accabler à ce sujet (que je connais bien). Je pensais aussi que c'était géré et que ce risque avait été ou réglé ou écarté. Ce ne semble pas le cas en effet.

Quant à mon évocation de nouveaux process nocturnes, c'est ce que javais cru lire dans un de tes derniers posts :
La plupart de ces changements sont situés sous le capot et sont peu visibles par les utilisateurs (ou alors indirectement : plus d'indisponibilités la nuit etc.).
Mais j'ai probablement mal interprété ta parenthèse.

Bonne galère en attendant ces histoires de serveurs à problèmes. Il y a eu encore un reboot depuis :-(


Re: Rapport d'incident pour grognon par Stephane le Mercredi 06/02/2008 à 09:26

Stephane J'ai remplacé "plus d'indisponibilité la nuit" par "résolution du problème d'indisponibilités la nuit" dans l'article. Si je change l'architecture, c'est pour résoudre les problèmes, pas en créer des nouveaux. ;-)


Re: Rapport d'incident pour grognon par Jean-Luc le Mercredi 06/02/2008 à 21:45

Jean-Luc LES GROS A NOUVEAU AU CHOMAGE TECHNIQUE !!!


Re: Rapport d'incident pour grognon par Stephane le Jeudi 07/02/2008 à 11:24

Stephane OVH est intervenu sur le serveur pour reflasher le bios.

Bonjour, 

L'intervention programmée sur votre serveur et débutée à la date 2008-02-06 21:47:34, s'est terminée avec succès.

Voici le détail de l'intervention réalisée: merci de flusher le biosDate 2008-02-06 21:31:14, Aurelien made BIOS check: Bios flasher Serveur en HDD Ping ok Services Open Bios ok

A l'heure actuelle, nous n'enregistrons plus de defaut sur votre serveur dédié

PS: le reboot dans votre manager a été réactivé


Re: Rapport d'incident pour grognon par Stephane le Jeudi 07/02/2008 à 11:28

Stephane Ce qui semble avoir résolu le problème du reboot toutes les heures, le serveur n'a pas rebooté depuis. :-)



Session

Pour participer plus facilement, ouvrez une session :

Identifiant de
mon blog
Nom d'utilisateur
Mot de passe

Si vous avez déjà un blog sur ViaBloga ou si vous avez ouvert un compte sur l'un d'entre eux, vous pouvez vous identifier avec votre nom d'utilisateur et mot de passe en précisant d'abord l'identifiant de votre blog.

S'inscrire

Archives par mois