Dans le cadre de notre plan de contrôle basé sur SaaS, nous avons construit et exploitons notre propre backbone mondial (AS35280), en utilisant plusieurs liaisons 100G et 400G entre nos PoP.
De cette façon, nous avons un contrôle total sur la connectivité de bout en bout entre nos périphériques régionaux, mais cela nous permet également de fournir la même connectivité haute performance et la même faible latence à nos clients, sur leurs centres de données privés, leurs sites périphériques, leurs VPC de cloud public (AWS, Azure, GCP), ainsi que leurs fournisseurs SaaS.
Notre empreinte européenne était déjà assez bonne, avec une présence à Paris, Londres, Amsterdam et Francfort, mais les clients existants et nouveaux avaient besoin d'un nouveau PoP à Lisbonne, au Portugal.
Tout cela a été convenu début 2020 et le déploiement était prévu pour le troisième trimestre 2020. Bien sûr, c'était avant le COVID-19 :)
Avec la crise, nous avons constaté beaucoup plus de trafic (et également des attaques DDoS, mais nous en parlerons plus en détail dans un prochain article de blog) sur notre dorsale, tout comme nos clients.
Ils nous ont demandé de déployer avant le troisième trimestre, car ils avaient besoin de ce PoP dès que possible — plus précisément, avant la fin du mois de mai. Et comme chez Volterra nous sommes des gens sympas, et aussi parce que nous aimons les défis, nous avons examiné attentivement le temps nécessaire pour répondre à la demande du client :
Sachant que nous étions début avril, cela semblait bien et nous avons décidé de continuer et de lancer le projet, même si c'était vraiment le pire moment possible pour le faire, en raison de :
Le déploiement d’un nouveau PoP ne concerne pas uniquement les routeurs, les commutateurs et les câbles. Vous devez également :
Avec la crise actuelle, il était impossible de disposer à temps du matériel nécessaire. Nous avons donc décidé de réutiliser certains éléments dont nous disposions, provenant principalement de notre laboratoire. Il s’agissait d’un compromis acceptable (par exemple, les routeurs utilisés seront des Juniper QFX10K au lieu du MX10K prévu).
Le staging, que nous effectuons habituellement dans un datacenter (à cause de la puissance et de l'espace rack nécessaires, mais aussi… du bruit !), devrait être effectué à la maison à cause du confinement. Raphaël, notre CTO Infrastructure, disposait d'un bureau suffisamment grand (incluant un contrat 60A, ce qui peut s'avérer utile lorsque vous démarrez/alimentez des équipements qui consomment jusqu'à 16A !), il faisait donc tout le staging lui-même, ce qui lui éviterait également d'avoir d'autres collaborateurs impliqués/de devoir sortir.
Une fois tout configuré et testé plusieurs fois, nous avons expédié à Lisbonne :
Même si nous étions confiants dans la configuration que nous avions réalisée (et que nous avions de toute façon un accès à distance via OOB ou notre backbone), c'était quand même la première fois qu'un nouveau PoP ne serait pas déployé directement par nous, mais par quelqu'un d'autre 😅
Nous utilisons la même conception de rack partout dans le monde, et l'objectif était d'être cohérent et d'avoir la même configuration pour ce nouveau PoP de Lisbonne.
Nous avons donc dû être extrêmement précis dans les instructions que nous donnions aux télétravailleurs d'Equinix afin qu'ils puissent imiter et n'aient qu'à « suivre le guide ».
Vous trouverez ci-dessous une partie de la procédure que nous avons envoyée à Equinix - afin qu'ils puissent facilement mettre en rack et connecter tout.
Il y a de nombreux composants à gérer : non seulement les périphériques matériels (routeurs, commutateurs, pare-feu, serveurs), mais aussi le câblage et, plus important encore, les ports du commutateur et du serveur auxquels connecter les câbles.
Comme vous pouvez le voir ci-dessous, la procédure est la plus détaillée possible, en gardant à l'esprit que les techniciens d'Equinix ont beaucoup d'installation à faire, donc plus nous sommes précis, mieux c'est !
Oui! L'installation a commencé le 5 mai, avec tous les appareils montés et alimentés, et aucune panne matérielle — nous avons eu de la chance, ou peut-être grâce à notre expérience, l'expédition et l'emballage ont été effectués correctement, ou peut-être les deux — mais dans tous les cas, tout a bien fonctionné.
Le lendemain, les techniciens d'Equinix se sont occupés du câblage (cuivre/fibre), et à 23h30, nous avons pu pinger notre PoP de Lisbonne depuis Paris !
L'installation a été achevée le 7 mai, avec les dernières tâches à effectuer, telles que la configuration des PDU, la connexion croisée des ports OOB, la vérification des ports IXP de bout en bout. Même notre configuration de commutateurs/pare-feu était entièrement fonctionnelle, nous n’avons pas eu besoin de demander à Equinix de modifier la configuration.
L'installation finale ressemble à ceci :
Comme nous sommes très exigeants, nous ne sommes pas satisfaits à 100 %, par exemple le panneau arrière du rack n’est pas aussi propre que nous le souhaiterions, mais nous réglerons ce problème une fois la crise terminée et nous pourrons à nouveau voyager au Portugal.
Même si nous sommes extrêmement heureux et fiers d’avoir réussi à relever le défi, nous aimons prendre du recul et réfléchir à ce qui a fonctionné, mais surtout à ce qui peut être amélioré.
Ce qui a fonctionné :
Pourquoi cela a fonctionné ?
Qu'est-ce qui peut être amélioré ?
Nous avons présenté ce déploiement lors de la première réunion RIPE à distance (RIPE 80), vous pouvez regarder l'enregistrement ici :