Recientemente, recordé la importancia de calibrar las medidas cuando volví al ámbito del mantenimiento de arrecifes. Al igual que los rápidos cambios en el panorama de las aplicação , el mantenimiento de arrecifes ha cambiado drásticamente en los últimos cinco años.
Hoy en día, cuento con monitores y sondas conectados que me rastrean automáticamente y me alertan si algo anda mal. Los paneles web y móviles permiten monitorear, programar y obtener una vista rápida del estado de mi tanque y del estado de los innumerables dispositivos que lo mantienen en funcionamiento.
Los lectores astutos notarán que el pH parece estar "por debajo del mínimo". No hay necesidad de preocuparse, todo está bien. Verás que la sonda (sensor) no está calibrada correctamente. Es un problema común; calibrar las sondas es un proceso plagado de fallos. En este momento sé que la sonda está calibrada baja y ajusto automáticamente la medición en función de ese conocimiento.
Al igual que la salud de un tanque de arrecife, la salud de las aplicações requiere una atención cuidadosa a las métricas clave. Las desviaciones, especialmente las fluctuaciones bruscas, pueden indicar un problema. El ajuste manual de métricas no es un proceso que desee imitar cuando se trata de aplicações. Los ajustes manuales pueden funcionar para una aplicação o incluso dos, pero la organización promedio tiene entre 100 y 200 aplicações en su cartera digital. Necesita mediciones precisas calibradas según patrones de salud típicos.
Como ocurre con la mayoría de las métricas de redes y aplicação , esto implica tomar muestras durante un período de tiempo y conocer los "altos" y los "bajos". Los umbrales pueden luego utilizarse para determinar un comportamiento anómalo.
La cuestión no es el principio sino más bien la ejecución.
En primer lugar, generalmente nos centramos en un solo punto de medición: la aplicação. Curiosamente, la salud de un tanque de arrecife requiere medir la salinidad y el pH junto con la temperatura porque ambos valores se ven afectados por la temperatura. Medir la salud de una aplicação es muy similar; se ve afectada por otras medidas, como el rendimiento y la carga de la red. Desafortunadamente, la mayoría de las organizaciones no necesariamente adoptan una visión holística del estado de las aplicação . La aplicação en sí puede estar bien, pero la experiencia del cliente puede ser pésima debido a un dispositivo o red conectados con un rendimiento deficiente.
Necesitamos ampliar nuestra visión de la salud de las aplicação ampliando lo que medimos. Además, necesitamos calibrar mediciones adicionales para asegurarnos de que podemos identificar qué es típico y qué no. Porque “lo que no es típico” puede ser indicativo de un problema o, peor aún, de un ataque.
En segundo lugar, el desafío de la escala surge de la necesidad de calibrar en múltiples puntos para cada aplicação que necesitamos monitorear ( spoiler: son todas ). No podemos esperar que los operadores calibren manualmente tantos puntos de datos. No es humanamente posible
Ahí es donde entran las máquinas.
El análisis avanzado y el aprendizaje automático son una de las respuestas al problema de la escala. Las máquinas pueden procesar, y de hecho lo hacen, grandes volúmenes de telemetría a velocidades significativas. Pueden ingerir, normalizar y analizar patrones y relaciones en cantidades de datos que nosotros, como seres humanos, simplemente no podemos manejar. De esta manera, el aprendizaje automático proporciona la capacidad de calibrar lo "normal" en una variedad de puntos de datos relacionados y detectar inmediatamente patrones desviados que indican un problema.
Es bastante fácil correlacionar los problemas de rendimiento de una aplicação con un aumento repentino de inicios de sesión un lunes por la mañana. Lo que no es fácil es reconocer que Bob normalmente no inicia sesión hasta el lunes por la tarde. Y, sin embargo, hoy lo es. Esa es una anomalía que no es fácilmente reconocible para los operadores humanos porque no tenemos ese nivel de visibilidad. Con suficiente telemetría emitida por la aplicação, el cliente y los servicios de la aplicação que componen la experiencia del código al cliente, el análisis avanzado puede detectar esa anomalía. También puede marcarlo o impulsar un nuevo flujo comercial que verifique que Bob realmente está intentando iniciar sesión.
Esa capacidad es similar a la que muchas aplicações hacen hoy en día a nivel de dispositivo. Muchos procesos digitales envían códigos de verificación y nos piden que demostremos que somos humanos identificando todos los autos en una imagen borrosa. Pero son los detalles del dispositivo los que desencadenan el nuevo flujo de negocio, no el comportamiento de iniciar sesión en un momento inusual del día. En el futuro, necesitaremos poder activar flujos basados en ambos, especialmente si continuamos apoyando una fuerza laboral distribuida.
Esto hace que la calibración sea una parte fundamental del proceso. Y la calibración se logra tomando (muchas) mediciones y llegando al valor "normal". Éste también es un proceso que desafía la escala humana y requiere que las máquinas ingieran y analicen cantidades significativas de telemetría.
En última instancia, los análisis avanzados permitirán la observabilidad y darán lugar a nuevos servicios capaces de descubrir información oculta sobre aplicação (DEM), permitir una orquestación de servicios de aplicaciones más inteligente (AI Ops) y producir valor comercial previamente imposible de descubrir (AI-Enhanced Services).
Para hacer esto, necesitamos generar grandes cantidades de telemetría para poder calibrar el comportamiento "normal" de las aplicações, los usuarios y todo lo que se encuentra en la ruta de datos intermedia.