ovh - probleme de routage 28-3-2012

Bonjour,

Nous avons eu un problème de routage cette nuit dû
à un bug software qui touchent 2 routeurs principaux
de Roubaix. Ces Cisco ASR 9010 assurent la collecte
de la bande passante des datacentres à Roubaix (RBX1
RBX2 RBX3 RBX4 RBX5) et la connexion vers Paris,
Bruxelles, Amsterdam, London et Frankfurt. En bref,
le coeur de routage à Roubaix.

Ce bug là est connu et il est lié aux nouvelles cartes
que nous avons mis en production fin janvier (24x10G par
slot). Pour une raison random la carte se met à détecter
des erreurs RAM ECC et ne route plus les packets. Mais
surtout malgré cela la carte ne se déclare pas "en panne"
et reste dans le routeur comme si elle était bonne.
Les autres routeurs continuent à envoyer les packets
mais en face il n’y a personne. Tout tombe dans un trou
noir et le réseau ne fonctionne plus correctement.
Le pire de cas : une panne pas net.

Cette nuit, 3 cartes 24x10G sur 2 routeurs ASR 9010
ont eu ce bug là presque en même temps. Ceci a cassé
le réseau en 3 morceaux : USA/London/Amsterdam/Varsovie,
Roubaix et Paris, Frankfurt, Madrid, Milano, en aspirant
les packets à Roubaix. Habituellement le trafic aurait
été rerouté mais là il a été aspiré et bloqué à Roubaix.

Du coup nous n’avons pas pu exploiter le réseau pour
administrer ce réseau et récupérer logs de tous les
routeurs afin de connaître l’origine du problème.
Nous avons navigué à l’ancienne, avec les connexions
de secours/extérieur pour se connecter sur chaque
routeur de backbone pour vérifier si c’est le routeur
qui est à l’origine du problème. Cette opération a
pris du temps, car en plus deux routeurs se sont mis
en panne et on avait mis du temps à comprendre que
ça ne venait pas juste d’un routeur rbx-g2-a9 mais aussi
à cause de rbx-g1-a9. Une fois que nous avons redémarré
les 3 cartes tout est revenu en 5 minutes.

Il y a environ 3 semaines. Nous avons déjà ouvert un
ticket au près de Cisco concernant ce problème de RAM
ECC. Cisco a travaillé sur le problème et a pu nous
fournir .. ce matin le patch software à appliquer sur
les routeurs afin de fixer ce problème là. On va
réaliser cette opération cette nuit. Pas de panne à
prévoir.

On regarde aussi comment améliorer la gestion de nos
routeurs dans le cas où toute la backbone est down
pour une raison qui n’arrive jamais. On sait gérer
ce cas de figure mais c’est lent. Très lent.

Dans tous les cas, la panne a durée plus que 99.9%
à savoir 1h22 alors qu’on a "droit" à 43 min par
mois de downtime. Il y a donc les pénalités qui se
déclenche pour le dépassement du temps autorisé.
Exemple : sur les SD OVH c’est 5% par heure d’indisponibilité.
Nous allons faire un URL afin que vous puissiez
déclencher le SLA et nous envoyer le doc pour créditer
les 5% du temps sur votre service. Il sera posté dans
le task http://travaux.ovh.com/?do=details&id=6533

C’est jamais agréable d’écrire ce genre d’email mais
quand on n’est pas bon, bahh, on l’assume et on
s’excuse.

Désolé encore.

Amicalement

Octave

Envie de recevoir nos dernières nouvelles? Inscrivez-vous à notre newsletter