En nuestra conferencia NGINX 2019, realizamos más de 50 sesiones grabadas que cubrieron diversos temas, pero en este blog compartiré conclusiones de uno de los temas más candentes de la industria: Ingeniería de confiabilidad del sitio (y también el tema relacionado de ingeniería del caos). Me centraré únicamente en tres puntos clave, pero te recomendamos ver la sesión completa aquí .
1. Definición de SRE
La conversación comenzó con la definición que los panelistas dieron al término Ingeniería de Confiabilidad del Sitio, con el comentario constante de que es esencialmente: “Cualquier cosa para garantizar que un sitio esté en funcionamiento”. Pero, más allá de eso, también enfatizaron en “profundizar mucho y solucionar el problema lo más rápido posible cuando ocurre algún problema” y “empoderar a los equipos de desarrollo con una mentalidad centrada en el cliente”. Además, ¿reconociste algunas similitudes aproximadas con los equipos de operaciones de red tradicionales en las descripciones? Sí, yo también, pero un panelista realmente leyó mi mente al destacar que “Algunas organizaciones establecen un equipo de SRE simplemente cambiando el nombre de su equipo de Operaciones de red, pero esa no es la mejor manera”. Se debatió un poco sobre esto, pero lo que llevo en cuenta es que la mayor diferencia entre SRE y NetOps es que el personal de SRE “forma parte de un equipo de desarrollo o de atención al cliente y se concentra verdaderamente en los objetivos comerciales”.
2. Ingeniería del caos e inyección de fallos
Uno de los temas claves para una función SRE es el concepto de ingeniería del caos. Dejaré la explicación detallada de la ingeniería del caos para este artículo , pero en esta sesión se trata realmente de “un enfoque para identificar fallos críticos y solucionarlos rápidamente”, algo similar a los simulacros de incendio. Y aunque tiene similitudes con los simulacros de incendio, el objetivo de Ingeniería Del Caos es más amplio, ya que se centra en analizar cuantitativamente métricas de recuperación, durabilidad y disponibilidad.
La inyección de errores es un método bastante común, introducido por Netflix en 2014. Es un enfoque de prueba para enviar metadatos de simulación de fallas al entorno de producción con fines de prueba, pero con control. Estos esfuerzos generalmente son liderados por equipos de SRE para garantizar una mayor disponibilidad y confiabilidad del servicio (o sitio).
3. KPI y conjunto de habilidades de SRE
Hubo un debate interesante sobre cómo debería medirse la SRE. Si bien se plantearon varios puntos sobre MTTD (tiempo medio de detección) y MTTR (tiempo medio de respuesta) como métricas importantes, todos los panelistas coincidieron en que las métricas variarán según la industria en la que se encuentre, así como los sistemas o sitios que opere. Una buena sugerencia extraída de la discusión fue: “Puedes comenzar haciendo esta pregunta: “¿Cuáles son tus 5 sistemas más críticos?”, y eso te ayudará a priorizar las cosas.
Otro tema tratado fue el conjunto de habilidades preferidas para un puesto de SRE. Según los panelistas, esto también depende del sistema que utilices. (Por ejemplo, si ejecuta NGINX, entonces la experiencia en NGINX sería crucial para la contratación de un SRE). Una gran sugerencia del grupo fue explorar formas de rotar al personal de SRE en diferentes áreas de la empresa y sistemas para escalar (y equipar mejor) los recursos de SRE. Además, asegúrese de que sus equipos de SRE participen en eventos y actividades de la comunidad de SRE, como capacitaciones, reuniones fuera de la oficina, canales de Slack dedicados y "días de juego", entre otras sugerencias útiles.
Conclusión: ¿Es 2020 el momento de definir su propia estrategia de SRE?
En pocas palabras, el debate reveló que muchas organizaciones aún están aprendiendo cómo definir y aprovechar el concepto y el papel de la SRE y, como reiteraron los panelistas, estos a menudo variarán según las industrias y los sistemas (e incluso las empresas individuales). En general, la ingeniería del caos seguirá siendo abordada el próximo año. ¿Quizás este sea el momento perfecto para comenzar a pensar qué significa esto para usted y su organización?