BLOG | OFICINA DEL CTO

SRE enfoca las arquitecturas empresariales modernas

Miniatura de Tabitha R. R. Powell
Tabitha R. R. Powell
Publicado el 12 de enero de 2023

Estar “activo” no es la medida del desempeño. El hecho de que llegue energía a una lámpara no significa que esté proporcionando al usuario suficiente luz para ver con seguridad lo que está haciendo. Muchos factores diferentes, además de la energía, afectarán si el usuario puede ver o no. La bombilla podría estar tenue, ya sea porque se está agotando o porque tiene energía pero no la suficiente. Si la bombilla no tiene suficiente energía para mantenerla brillante, podría haber un problema con el cableado o una restricción en el flujo de electricidad debido a un regulador. Y si la bombilla es muy brillante, la pantalla de la lámpara podría ser demasiado oscura o el espacio demasiado grande para una sola luz. En resumen, hay muchos factores que inciden en el rendimiento de la lámpara y, posteriormente, en la experiencia del usuario. De manera similar, evaluar el rendimiento y la confiabilidad de los sistemas y aplicações implica mucho más que la medida tradicional del tiempo de actividad. La confiabilidad también depende del nivel de servicio.

Los sistemas y las aplicações están formados por muchos componentes (infraestructura, API, seguridad, flujos de trabajo, lógica, datos, etc.) reunidos con un propósito, y su mero hecho de estar activos no garantiza su confiabilidad. Al igual que con la analogía de la lámpara, debes poder evaluar y valorar todos los componentes para poder confirmar un rendimiento y una experiencia óptimos. Mientras que en un negocio tradicional determinar una deficiencia en el nivel de servicio puede ser tan fácil como recorrer el "recorrido del cliente" para evaluar la experiencia general, en un negocio digital eso puede ser un desafío importante. Con los silos comerciales y de TI creados por las arquitecturas empresariales tradicionales, identificar un problema y encontrar su causa raíz no siempre es fácil ni eficiente. Los líderes empresariales pueden pensar que hay un problema, pero los equipos de TI que administran sus componentes tal vez no lo crean si todo está "encendido". La ingeniería de confiabilidad del sitio (SRE) es el puente entre el negocio y TI para garantizar la ejecución de los compromisos comerciales mediante objetivos de nivel de servicio (SLO) .

¿Qué es la SRE?

La ingeniería de confiabilidad del sitio se originó en Google a principios de la década de 2000 y, según ellos, “es lo que se obtiene cuando se tratan las operaciones como si fueran un problema de software”. En nuestros términos, es un conjunto de procesos, prácticas y herramientas, así como una cultura y una mentalidad empleadas para crear sistemas confiables, eficientes y escalables que respalden los objetivos comerciales.

SRE se centra en sistemas confiables (no solo disponibles) y escalables. Añadimos que es una mentalidad y una cultura porque, al igual que la seguridad, se debe esperar que todos contribuyan positivamente a sistemas confiables y de calidad sin importar su función. Si bien también es una cultura y una mentalidad, la práctica de SRE a menudo está incorporada en un equipo de servicio que brinda todo el servicio de principio a fin. Estos equipos generalmente son responsables de mejorar el sistema central y permitir la innovación a través del monitoreo de la disponibilidad, la latencia, el rendimiento y la recuperación, mientras impulsan la mejora continua con automatización y eficiencia. En esencia, están mirando toda la habitación, no sólo verificando que la lámpara esté encendida.

Cómo SRE utiliza los SLI para cumplir los SLO

La ingeniería de confiabilidad del sitio define las medidas de los SLO y SLI (indicadores de nivel de servicio) para cumplir con los resultados comerciales. En términos más simples, SRE une las necesidades y los objetivos de los equipos de desarrollo, seguridad y operaciones para cumplir de manera confiable las promesas hechas por la empresa a sus clientes.

Si el compromiso comercial es que los usuarios tendrán de manera confiable suficiente luz para ver lo que están haciendo (nivel de servicio), un SLO podría ser una lámpara iluminada (disponibilidad) por cada 10 pies cuadrados de espacio. Mientras tanto, otro SLO podría ser un MTTR (tiempo medio de recuperación) definido, en este ejemplo la cantidad de tiempo en el que se reemplazarán las bombillas muertas o a punto de agotarse. Los SLI son entonces los umbrales definidos por los ingenieros de confiabilidad del sitio y TI para garantizar que se alcancen los SLO, como el monitoreo del flujo luminoso, el flujo de electricidad a cada lámpara o los cambios marginales en la ubicación de las lámparas causados por los usuarios que las golpean o mueven. En los sistemas de distribución de aplicação, estos podrían ser el uso de la CPU, el tiempo de llamada de API y de consulta de base de datos, etc. Depende de los ingenieros de confiabilidad del sitio definir las medidas de SLI que impactan los SLO comerciales y qué respuestas se tomarán cuando caigan por debajo de umbrales específicos ajustando las políticas operativas y la configuración.

Beneficio de SRE en las arquitecturas empresariales modernas

Las medidas, los umbrales y las respuestas son la intersección de SRE con los otros dominios de una arquitectura empresarial moderna diseñada para la entrega de aplicação de un negocio digital. Los datos operativos (telemetría) alimentan la observabilidad de las medidas y los umbrales definidos establecidos por SRE. La automatización es la aplicação combinada de herramientas, tecnologías y prácticas para permitir que los ingenieros de confiabilidad del sitio escalen respuestas definidas con menos trabajo, lo que permite la satisfacción eficiente de los SLO de un servicio digital. Y la confiabilidad del sistema de servicios digitales mejora la probabilidad de una experiencia de usuario positiva con su negocio digital.

Para reiterar, SRE actúa como un puente que unifica los esfuerzos de TI y el negocio al utilizar todas las herramientas, tecnologías y procesos disponibles para ir más allá de simplemente tener los sistemas "encendidos", para garantizar también que funcionen de manera confiable. Al adoptar SRE en la arquitectura empresarial, las empresas pueden ser proactivas en el cuidado de sus aplicações de sistema y detectar caídas o irregularidades antes, que los ingenieros de confiabilidad del sitio pueden investigar y resolver antes de que se vea afectada la experiencia del usuario.

Para aprender cómo integrar SRE en su negocio y respaldar el viaje de transformación hacia un negocio digital eficiente y escalable, lea “The Need for Speed”, un capítulo de Julia Renouard en nuestro libro de O'Reilly, Enterprise Architecture for Digital Business .