S'identifier - S'inscrire - Ecrire un article - Contact

OVH indisponible pendant une demi heure le 17/1/2005

Par Stephane • Actualités • Lundi 17/01/2005 • 2 commentaires  • Lu 3095 fois • Version imprimable

Mots-clés :


L'ensemble des sites hébergés chez OVH (le plus gros hébergeur de France, qui héberge le serveur de Joueb.com et ViaBloga) étaient innaccessibles pendant un peu plus d'une demi heure ce soir. On aura probablement plus d'infos un peu plus tard sur la cause du problème. Désolé pour l'interruption.

D'autres articles sur des thèmes similaires :


Commentaires

Détails techniques par Stephane le Mardi 18/01/2005 à 00:42

Stephane Les détails techniques sont là :
http://travaux.ovh.net/index.php?do=details&id=205

Nous avons eu un problème sur l'alimentation du batiment.
EDF a eu un défaut sur la 1ere boucle puis sur la 2ème.
L'alimentation a basculé sur la 3ème arrivée comme prevu.
Par contre l'alimentation du systeme qui gere ces basculements
(sur baterie) a coupé pour des raisons qu'on connait pas
encore.

La coupe a été enregistré à 22H54. Nous avons alimenté
en direct le systeme de basculement à 23h14. Tout revient
tout doucement.

Les équipes sont sur place. D'autres sur la route.

[..]

La situation evolue. Tous les routeurs sont en marche. Tout
mutualisé est en fonctionnement sauf mediaplan. Les emails
fonctionnent très très doucement (encore 4 machines en panne).
Les sql reviennent tout doucement. Pour le dédiés: 3 switchs
restent en panne et plusieurs dizaines de systemes de reboot.
Environ 600 machines sont être encore en panne.


L'explication complète par Stephane le Mardi 18/01/2005 à 11:19

Stephane Bonjour,
Nous avons eu hier soir la plus importante panne qu'on ait
connu chez Ovh. Le pire des scenarios s'est produit.

Voici l'explication:

EDF nous alimente sur 3 arrivées independantes. Ces 3 gros
cables arrivent sur notre poste de transformation sur les
grosses armoires où nous avons une serie des dijoncteurs
à 20'000V. En suite, la tention passe par le transformateur
puis arrivent sur les onduleurs puis dans nos salles
d'hébergement.

Le systeme qui detecte les defauts dans les arrivées electrique
d'EDF gere le poste de transformation. C'est à dire qu'il coupe
ou rearme les dijoncteurs avec l'objectif d'alimenter toujours
le transformateur. Ce systeme est, en théorie, toujours alimenté:
il fonctionne en 48v et il y a des bateries de secours. C'est
normal: si ce systeme n'est plus alimenté, les dijoncteurs
ne sont plus maintenus et toutes les arrivées d'EDF sont coupées.

Nous avons demarré il y a 1 semaine des travaux sur la mise en
place d'un nouveau transformateur http://travaux.ovh.net/?do=details&id=191
Le nouveau transformateur (de secours) a été mis en place et
alimenté de sorte que le 1er transformateur ne soit plus alimenté.
En effet, l'entreprise qui nous fournit les transformateurs
doit faire des travaux de reparation sur le 1er transformateur (sic).

Le probleme a été très simple: le systeme qui gere le poste de
transformation a été alimenté uniquement par le 1er transformateur.
Une fois que nous avons basculé sur le transformateur de secours,
il a fonctionné sur la baterie. Plusieurs jours après, c'est à dire
hier soir vers 22h, la baterie a été à plat et tous les dijoncteurs
sur les arrivées d'EDF ont été lachés. Les onduleurs n'étant plus
alimentés, ils ont tenu leur temps puis se sont dechargés. Tout le
datacentre a été privé du courant soit 5000 serveurs.

Pour réarmer le systeme, il nous aura fallu chercher une source
de tension exterieur à Ovh ! Une fois que la baterie a été un peu
rechargée, les dijoncteurs se sont rearmés. Ceci a durée une 20ène
des minutes.

Toute l'équipe a été mobilisée en quelques minutes. 1h après la
panne, 90% des serveurs fonctionnaient à nouveau. 10h après la
panne, toutes les machines ont été à nouveau en fonctionnement.

Conclusion:
Pour construire notre datacentre, nous choisissons les meilleurs
fournisseurs en France (MGE, France Transformateur, ...). Nous travailons
avec une entreprise d'electricité qui a une experiance de plusieurs
dizains d'années et travaile pour les entreprise comme 3Suisse.
Malgré un investissement très important pour securiser tout à
tous les niveaux, il nous arrive encore d'avoir des defauts dû
à la fiabilitée du materiel comme une pompe qui doit tenir 3ans et
lache le 3ème mois, un onduleur MGE neuve explose 2ème semaine après
l'installation, et maintenant un bug dans l'alimentation du systeme
de gestion de poste de transformation (default de conception de
l'entreprise qui nous fait l'electricité).

Nous allons mettre nettement plus des capteurs avec des remontés
d'information plus directe et même dans les systemes qui ne sont
"jamais" en panne. Le mot "jamais" vient d'être effacé de notre
vocabulaire. Nous allons créer un systeme de visualisation
en interne de ces defauts sur paris 19 mais aussi avec des remontés
sur le web. Ceci nous permettra d'avoir toutes les informations
centralisées et avoir toute l'installation en un coup d'oeil.
Nous continuons à faire confiance dans les équipements des
entreprises françaises, malgré une fiabilitée qui laisse à desirer
et malgré le fait que ce materiel coute plusieurs fois plus cher
que l'équivalent dans les pays de l'Est par exemple. Nous voulons
du meilleur pour notre datacentre sur paris 19 et nous pensons
que le choix de fournisseurs n'est pas à remettre en cause.

Le serieux de l'équipe à gerer un incident majeur a été une fois
encore demontrée.

Nous allons appliquer le contrat SLA à tous les clients des serveurs
dédiés en fonction de temps de panne. Vous allez recevoir un email
sous 3-4 semaines (le temps de faire le bilan).

Nous sommes désolés pour cet incident.

Cordialement
Octave Klaba
Directeur Technique d'Ovh.com



Session

Pour participer plus facilement, ouvrez une session :

Identifiant de
mon blog
Nom d'utilisateur
Mot de passe

Si vous avez déjà un blog sur ViaBloga ou si vous avez ouvert un compte sur l'un d'entre eux, vous pouvez vous identifier avec votre nom d'utilisateur et mot de passe en précisant d'abord l'identifiant de votre blog.

S'inscrire

Archives par mois