BLOG

Comment nous avons déployé un PoP réseau à distance pendant la crise du COVID-19

Vignette de Nico Cartron
Nico Cartron
Publié le 19 mai 2020

Dans le cadre de notre plan de contrôle basé sur SaaS, nous avons construit et exploitons notre propre backbone mondial (AS35280), en utilisant plusieurs liaisons 100G et 400G entre nos PoP.

De cette façon, nous avons un contrôle total sur la connectivité de bout en bout entre nos périphériques régionaux, mais cela nous permet également de fournir la même connectivité haute performance et la même faible latence à nos clients, sur leurs centres de données privés, leurs sites périphériques, leurs VPC de cloud public (AWS, Azure, GCP), ainsi que leurs fournisseurs SaaS.

pop-blog-1
Infrastructure mondiale et réseau dorsal privé de Volterra

L'exigence

Notre empreinte européenne était déjà assez bonne, avec une présence à Paris, Londres, Amsterdam et Francfort, mais les clients existants et nouveaux avaient besoin d'un nouveau PoP à Lisbonne, au Portugal.

Tout cela a été convenu début 2020 et le déploiement était prévu pour le troisième trimestre 2020. Bien sûr, c'était avant le COVID-19 :)

Avec la crise, nous avons constaté beaucoup plus de trafic (et également des attaques DDoS, mais nous en parlerons plus en détail dans un prochain article de blog) sur notre dorsale, tout comme nos clients.

Ils nous ont demandé de déployer avant le troisième trimestre, car ils avaient besoin de ce PoP dès que possible — plus précisément, avant la fin du mois de mai. Et comme chez Volterra nous sommes des gens sympas, et aussi parce que nous aimons les défis, nous avons examiné attentivement le temps nécessaire pour répondre à la demande du client :

  • Il nous a fallu au moins 2 semaines pour déployer et tester,
  • Et une semaine pour valider

Sachant que nous étions début avril, cela semblait bien et nous avons décidé de continuer et de lancer le projet, même si c'était vraiment le pire moment possible pour le faire, en raison de :

  • Interdiction de voyager,
  • Pas d'accès au centre de données,
  • Pénurie mondiale de composants,
  • Sans parler des risques pour la santé.

De quoi a-t-on besoin ?

Le déploiement d’un nouveau PoP ne concerne pas uniquement les routeurs, les commutateurs et les câbles. Vous devez également :

  • réaliser une ingénierie réseau pour choisir le meilleur emplacement et les meilleurs fournisseurs d'ondes,
  • conclure un accord/négocier avec le centre de données choisi (Equinix LS1 dans ce cas),
  • traiter avec IXP pour sécuriser les ports de peering,
  • et bien sûr commander le matériel/équipement adéquat (routeurs, commutateurs, câbles, pare-feu, …)

Comment nous l'avons fait

Avec la crise actuelle, il était impossible de disposer à temps du matériel nécessaire. Nous avons donc décidé de réutiliser certains éléments dont nous disposions, provenant principalement de notre laboratoire. Il s’agissait d’un compromis acceptable (par exemple, les routeurs utilisés seront des Juniper QFX10K au lieu du MX10K prévu).

Le staging, que nous effectuons habituellement dans un datacenter (à cause de la puissance et de l'espace rack nécessaires, mais aussi… du bruit !), devrait être effectué à la maison à cause du confinement. Raphaël, notre CTO Infrastructure, disposait d'un bureau suffisamment grand (incluant un contrat 60A, ce qui peut s'avérer utile lorsque vous démarrez/alimentez des équipements qui consomment jusqu'à 16A !), il faisait donc tout le staging lui-même, ce qui lui éviterait également d'avoir d'autres collaborateurs impliqués/de devoir sortir.

pop-blog-2
Préparation et mise en scène

Une fois tout configuré et testé plusieurs fois, nous avons expédié à Lisbonne :

pop-blog-3
Prêt à être expédié !

Installation de racks à Lisbonne par Equinix à distance

Même si nous étions confiants dans la configuration que nous avions réalisée (et que nous avions de toute façon un accès à distance via OOB ou notre backbone), c'était quand même la première fois qu'un nouveau PoP ne serait pas déployé directement par nous, mais par quelqu'un d'autre 😅

pop-blog-4
Un de nos racks déjà déployé

Nous utilisons la même conception de rack partout dans le monde, et l'objectif était d'être cohérent et d'avoir la même configuration pour ce nouveau PoP de Lisbonne.

Nous avons donc dû être extrêmement précis dans les instructions que nous donnions aux télétravailleurs d'Equinix afin qu'ils puissent imiter et n'aient qu'à « suivre le guide ».

Vous trouverez ci-dessous une partie de la procédure que nous avons envoyée à Equinix - afin qu'ils puissent facilement mettre en rack et connecter tout.

Il y a de nombreux composants à gérer : non seulement les périphériques matériels (routeurs, commutateurs, pare-feu, serveurs), mais aussi le câblage et, plus important encore, les ports du commutateur et du serveur auxquels connecter les câbles.

pop-blog-5

Comme vous pouvez le voir ci-dessous, la procédure est la plus détaillée possible, en gardant à l'esprit que les techniciens d'Equinix ont beaucoup d'installation à faire, donc plus nous sommes précis, mieux c'est !

pop-blog-6

Est-ce que ça a marché ?

Oui! L'installation a commencé le 5 mai, avec tous les appareils montés et alimentés, et aucune panne matérielle — nous avons eu de la chance, ou peut-être grâce à notre expérience, l'expédition et l'emballage ont été effectués correctement, ou peut-être les deux — mais dans tous les cas, tout a bien fonctionné.

Le lendemain, les techniciens d'Equinix se sont occupés du câblage (cuivre/fibre), et à 23h30, nous avons pu pinger notre PoP de Lisbonne depuis Paris !

L'installation a été achevée le 7 mai, avec les dernières tâches à effectuer, telles que la configuration des PDU, la connexion croisée des ports OOB, la vérification des ports IXP de bout en bout. Même notre configuration de commutateurs/pare-feu était entièrement fonctionnelle, nous n’avons pas eu besoin de demander à Equinix de modifier la configuration.

L'installation finale ressemble à ceci :

pop-blog-7

Comme nous sommes très exigeants, nous ne sommes pas satisfaits à 100 %, par exemple le panneau arrière du rack n’est pas aussi propre que nous le souhaiterions, mais nous réglerons ce problème une fois la crise terminée et nous pourrons à nouveau voyager au Portugal.

« Post-Mortem » — ce qui a fonctionné, pourquoi et ce qui peut être amélioré

Même si nous sommes extrêmement heureux et fiers d’avoir réussi à relever le défi, nous aimons prendre du recul et réfléchir à ce qui a fonctionné, mais surtout à ce qui peut être amélioré.

Ce qui a fonctionné :

  • Equinix : il est important d’informer un fournisseur lorsque les choses ne vont pas bien, mais il est encore plus important de le faire lorsque les choses se sont bien passées et même au-delà — et c’est le cas ici. Des ventes et de la haute direction aux techniciens du centre de données, le support et la réactivité que nous avons reçus ont été tout simplement incroyables, surtout pendant ces périodes difficiles. Alors vraiment, félicitations à Equinix !

Pourquoi cela a fonctionné ?

  • Volterra était déjà une entreprise principalement distribuée et travaillant à distance — en particulier, notre équipe française, responsable de NetOps, est répartie dans toute la France et est habituée à travailler à distance en utilisant des outils collaboratifs.
  • Nous avions suffisamment de matériel de rechange/laboratoire à utiliser, ce qui nous a permis d'être à l'heure
  • La procédure que nous avons brièvement expliquée ci-dessus est le résultat d’années de déploiement et d’expérience, avec des améliorations itératives, et elle a porté ses fruits.
  • Entretenir de bonnes relations avec nos fournisseurs est essentiel pour nous : encore une fois, lorsque quelque chose ne va pas, nous les appelons et n’hésitons pas à les prévenir, mais d’un autre côté, cela leur permet de s’améliorer, non seulement pour nous mais pour tous leurs clients.
  • Besoin de rapidité/prix/qualité : Vous devez avoir des attentes élevées — cela inclut un investissement dans les ressources AVANT d’en avoir besoin !

Qu'est-ce qui peut être amélioré ?

  • Nous avons réalisé que seule une poignée de personnes (3 à 4) dans l'entreprise pouvait gérer un tel déploiement. Nous devons trouver un moyen de faire évoluer la situation.
  • Nous souhaitons également améliorer la manière dont nous réalisons la mise en scène, pour éviter de devoir d’abord effectuer une mise en scène complète.
  • Finalement, un tel déploiement n’est pas seulement une question technique : Les équipes commerciales/préventes doivent être conscientes du temps nécessaire pour l'ensemble du projet et les différentes étapes, et ne pas supposer que NetOps peut tout résoudre et donc abandonner des projets sans qualification de timing appropriée.

Nous avons présenté ce déploiement lors de la première réunion RIPE à distance (RIPE 80), vous pouvez regarder l'enregistrement ici :

https://ripe80.ripe.net/archive/video/raphael-maunier-3-le-defi-des-operations-sous-les-restrictions-du-covid-19 main-20200513-132226.mp4