ovh - travaux sur les routeurs vss

http://travaux.ovh.com/?do=details&id=4440

Bonsoir,
Pour le datacentre Roubaix 2, nous avons décidé de mettre en place
le réseau avec un objectif de 100% de disponibilité. Pour cela
nous avons utilisé les switchs Cisco 6509 dans la configuration
VSS. Il s’agit d’une système basé sur 2 châssis fonctionnant comme
1 seul. Avec 2 châssis, tout est doublé, et donc on devrait avoir
100% de disponibilité.

Dans le monde réel, nous avons plusieurs problèmes avec les VSS qui
provoqué de coupure dans le service et donc n’ont pas remplit le
contrat initial. A la base, nous avons un problème chronique sur
le BGP. A moindre modification de table de routage, le CPU du
routeur est à 100% pendant 15 minutes minimum. Pas grave. Mais fin
2009, nous avons mis en place de protections fortes sur le réseau
interne qui consistent à isoler chaque serveur d’un autre. On le réalise
à travers les vlan privé et la mise en place d’un proxy arp. Très
standard comme solution. Le routeur répond à la place de tous les
serveurs et assure le routage même dans un même vlan. Tout est donc
très secure. Par contre le routeur doit répondre à toutes les demandes
de MAC de tous les serveurs et le processes qui le gère sur le VSS
prend beaucoup de CPU.

En temps normal tout ceci fonctionne sans problème. Mais il suffit
que le réseau recalcule les tables de routage pour que le BGP prennent
100% du CPU et empêche le processes MAC de fonctionner. La conséquence :
les serveurs ne connaissent plus les MAC et il y a une coupure dans
le service pendant 1, 3, ou 8 minutes, suivant l’importance de
recalcule de tables BGP.

On pense fixer le problème BGP avec les routeurs spécifique qui
ne vont faire que ça. Route reflector. Normalement on devait recevoir
le matériel ce mois-ci mais la commande a été mal enregistrée entre
le distributeur et le fabriquant ... et on va le recevoir au mieux fin
septembre ... On a décidé de ne plus attendre cette livraison, et
mettre en place une solution ce week-end.

Mais on aura toujours le problème de MAC. On a donc décidé de
casser les configurations VSS et repartir sur ce qui a toujours
bien fonctionner : le routeur dans un seul châssis. Nous avons
un peu moins de 30 routeurs dans la configuration mono châssis
qui ne posent aucun problème. C’est uniquement dans la configuration
double châssis que nous avons de problèmes. On va donc casser les
châssis.

Donc à partir de la semaine passée, nous allons effectuer les
modifications sur les VSS afin de passer sur une configuration basée
sur un seul châssis.

Nous allons l’effectuer en 4 étapes :
- tous les liens du datacentre connectés sur le châssis 2 seront
reconnectés sur le châssis 1. pas de coupure dans le service
puisque tout fonctionnera sur le châssis 1.
- tous les liens vers internet connectés sur le châssis 2 seront
reconnectés sur le châssis 1. pas de coupure dans le service,
puisque tout fonctionnera sur le châssis 1.
- coupure électrique du châssis 2. pas de coupure dans le service
puisque le châssis 2 ne sera plus utilisé.
- changement de la configuration du châssis 1 vers la version
mono châssis. là il faudra qu’on redémarre le routeur en hard.
et donc il faudra compter 15 minutes de coupure dans le service.
on va l’effectuer à 4 heures du matin fin de la semaine prochaine
si on avance bien.

On va attaquer d’abord le vss-2 qui pose le plus de problèmes.

Normalement, au maximum à l’étape 4, on n’aura plus de problèmes
BGP. Il se peut qu’à travers les configurations sur 2 châssis ce
problèmes là puisse être résolu dés l’étape 3 voir 2, car tout
fonctionnera sur 1 seul châssis. Mais on n’est pas sûr. En tout
cas à la fin de l’étape 4 ça sera fixé.

Et comme le BGP sera fixé, on pense qu’il est probable que le
problèmes de MAC le soit aussi. Si le BGP ne fonctionne pas
bien en double châssis, alors peut être d’autres processes ne
fonctionnent pas non plus bien en double châssis ? On va voir
ça aussi.

On regrette toutes les petites coupures que les clients de
Roubaix 2 ont subit dernièrement qui sont principalement dû
aux problèmes décrites ici. Le mauvais choix dans le matériel
qu’on assume entièrement. On pensait que le fabricant allait
régler le problèmes de CPU mais d’après lui c’est normal. Ce
matériel là est donc incompatible avec nos besoins. On va le
changer. Nous avons mal gère la situation et on aurait dû
ne pas demander de l’aide du fabriquant mais agir de suite
pour trouver une autre solution tout simplement. Erreur dans
la gestion de problème.

Pour continuer dans la transparence, vous avez peut être dû
remarquer les problèmes sur London, Amsterdam et Frankfurt
il y a 14 jours environ. Nous avons en effet ajouté de liens
de sécurisation il y a 14 jours. Entre London/Amsterdam et
Paris/Frankfurt. De gros investissements très lourd qui ont
été décidés pour rendre la backbone totalement secure et 100%
disponible même en cas de problèmes sur la fibre optique.
Le fait d’ajouter ces liens là sur les routeurs, ceci a provoqué
la saturation de la RAM disponible de routeurs et le crash de
London. Ce qui a entraîné Amsterdam et Frankfurt dans la foulé
pour les mêmes raisons. Qui dit crash de routeurs, dit recalcule
de BGP et donc 100% de CPU sur les vss ... voilà pourquoi ces
crashs ont eu la conséquence sur le service à Roubaix 2 :(
Nous avons fixé le problème en désactivant le MPLS qui n’est pas
nécessaire mais qui prend 20% de la RAM. Depuis c’est stable.

On pensait changer tous les routeurs pendant les vacances,
mais le matériel qu’on a souhaité mettre en place n’est pas
disponible et ce qui est disponible ne fonctionne pas. Nous
avons en effet reçu le nouveau Cisco Nexus 7000 et le BGP
ne marche pas mais génère des messages d’erreurs ... Matériel
neuf et voilà ... Mauvais choix de matériel encore. Et donc
de grosses remises en cause en perspective ... Par contre
ça va génère aussi du retard dans les changements de routeurs
prévus. Alors on sert les mains en ce moment de tous les
fabriquant du marché pour voir ce qu’on va mettre en place
à la place de ce que nous avons prévu. Du boulot imprévu
qui provoquera de retard sur d’autres projets ...

Bref ...

Je pense qu’on ne peut pas être plus transparent sur les
derniers évènements.

Amicalement
Octave

Envie de recevoir nos dernières nouvelles? Inscrivez-vous à notre newsletter