Lors de notre conférence NGINX 2019, nous avons organisé plus de 50 sessions enregistrées couvrant divers sujets, mais dans ce blog, je partagerai les points à retenir de l'un des sujets les plus brûlants de l'industrie : Ingénierie de la fiabilité du site (et également le sujet connexe de l'ingénierie du chaos). Je me concentrerai simplement sur trois points clés, mais nous vous encourageons à regarder l'intégralité de la session ici .
1. Définition SRE
La conversation a commencé sur la façon dont les panélistes définissaient le terme « ingénierie de fiabilité du site », avec le commentaire constant qu'il s'agit essentiellement de : « Tout pour garantir qu’un site soit opérationnel. » Mais, au-delà de cela, ils ont également insisté sur le fait qu’il faut « aller vraiment en profondeur et résoudre le problème le plus rapidement possible lorsqu’un problème survient » et « donner aux équipes de développement un état d’esprit centré sur le client ». De plus, avez-vous reconnu des similitudes approximatives avec les équipes d’opérations réseau traditionnelles dans les descriptions ? Oui, moi aussi, mais un panéliste a vraiment lu dans mes pensées en soulignant que « certaines organisations créent une équipe SRE simplement en renommant leur équipe Network Ops, mais ce n'est pas la meilleure façon de procéder. » Il y a eu quelques discussions à ce sujet, mais ce que je retiens ici est que la plus grande différence entre SRE et NetOps est que le personnel SRE « siège dans une équipe de développement ou une équipe en contact avec les clients et se concentre véritablement sur les objectifs commerciaux ».
2. Ingénierie du chaos et injection d'échecs
L’un des sujets clés d’une fonction SRE est le concept d’ingénierie du chaos. Je reporterai l'explication détaillée de l'ingénierie du chaos à cet article , mais dans cette session, il s'agit en réalité d'une « approche permettant d'identifier les défaillances critiques et de les corriger rapidement » – quelque chose de similaire aux exercices d'incendie. Et bien qu’il présente des similitudes avec les exercices d’incendie, l’objectif de l’ingénierie du chaos est plus large, dans la mesure où il se concentre sur l’analyse quantitative des mesures de récupération, de durabilité et de disponibilité.
L’injection d’échec est une méthode assez courante, introduite par Netflix en 2014. Il s’agit d’une approche de test permettant de transférer les métadonnées de simulation de défaillance dans l’environnement de production à des fins de test, mais avec contrôle. Ces efforts sont généralement menés par les équipes SRE afin de garantir une disponibilité et une fiabilité accrues du service (ou du site).
3. KPI et compétences du SRE
Il y a eu des discussions intéressantes sur la manière dont l'ERS devrait être mesuré. Bien que plusieurs points aient été soulevés concernant le MTTD (temps moyen de détection) et le MTTR (temps moyen de réponse) en tant que mesures importantes, tous les panélistes ont convenu que les mesures différeront en fonction du secteur dans lequel vous évoluez, ainsi que des systèmes ou des sites que vous exploitez. Une bonne suggestion qui ressort de la discussion est la suivante : « Vous pouvez commencer par poser cette question : « Quels sont vos 5 systèmes les plus critiques ? » et cela vous aidera à hiérarchiser les choses.
Les compétences privilégiées pour un poste SRE étaient un autre sujet abordé. Selon les panélistes, cela dépend également du système que vous utilisez. (Par exemple, si vous utilisez NGINX, l’expérience NGINX serait cruciale pour l’embauche d’un SRE.) Une excellente suggestion du groupe a été d’explorer les moyens de faire tourner le personnel SRE dans différents domaines de l’entreprise et dans différents systèmes afin de faire évoluer et de mieux équiper les ressources SRE. Assurez-vous également que vos équipes SRE participent aux événements et activités de la communauté SRE tels que les formations, les sites externes, les canaux Slack dédiés et les « journées de jeu », entre autres suggestions utiles.
Conclusion – 2020 est-il le moment de définir votre propre stratégie SRE ?
En un mot, la discussion a révélé que de nombreuses organisations apprennent encore à définir et à exploiter le concept et le rôle de SRE – et comme l’ont répété les panélistes, ceux-ci varient souvent en fonction des secteurs et des systèmes (et même des entreprises individuelles). Dans l’ensemble, l’ingénierie du chaos continuera d’être abordée l’année prochaine. C’est peut-être le moment idéal pour commencer à réfléchir à ce que cela signifie pour vous et votre organisation ?