¿Qué es la alta disponibilidad?

La alta disponibilidad se refiere a la capacidad de un sistema para operar de manera continua, sin interrupciones ni fallos, gracias a mecanismos de conmutación por error incorporados. Estos sistemas están diseñados para mantener su funcionamiento incluso ante eventos imprevistos.

Por qué es importante la alta disponibilidad

El objetivo principal de la alta disponibilidad es evitar el tiempo de inactividad, que es el periodo de tiempo en el que un sistema, servicio, aplicación, servicio en la nube o característica no está disponible o no funciona correctamente. El tiempo de inactividad supone una pérdida de ingresos, una disminución de la productividad y un daño a la reputación de una empresa. Por ese motivo, la alta disponibilidad es importante para:

  • La continuidad del negocio: La alta disponibilidad asegura que los sistemas, funciones y características críticas operen de forma continua y conforme a lo esperado. Estos sistemas se recuperan rápidamente de los fallos, permitiendo a las organizaciones seguir atendiendo a los clientes sin interrupciones perceptibles.
  • Mejora de la experiencia del usuario: Sistemas rápidos y fiables garantizan la satisfacción del cliente al prevenir problemas como la pérdida de ingresos, el riesgo para los datos y la disminución de la productividad.
  • Ventaja competitiva: Mantener altos niveles de disponibilidad permite a las organizaciones destacarse al ofrecer servicios más rápidos y confiables que la competencia, demostrando un compromiso sólido con la calidad y la satisfacción del cliente.

Tipos de alta disponibilidad

Existen varios tipos de alta disponibilidad, que pueden clasificarse en función del nivel de redundancia necesario, el tipo de tolerancia a fallos requerida y el tipo de sistema que se está protegiendo. Entre los tipos más comunes de alta disponibilidad se incluyen:

  • Activo-pasivo: En un sistema de copia de seguridad en modo pasivo, el sistema secundario permanece inactivo y solo se activa si el sistema primario falla. Este método de protección ante fallos a menudo requiere intervención manual para conmutar al sistema de copia de seguridad.
  • Activo-activo: En un sistema activo-activo, varios sistemas operan simultáneamente y comparten la carga de trabajo. Si uno de los sistemas falla, los demás asumen automáticamente su carga. Este enfoque de alta disponibilidad exige una configuración y coordinación más complejas entre los sistemas, pero proporciona un rendimiento y escalabilidad superiores en comparación con la opción manual.

Este diagrama muestra un clúster de alta disponibilidad activo-pasivo de dos servidores NGINX Plus. NGINX también admite configuraciones activo-activo y otras configuraciones de alta disponibilidad.

 

 

diagrama

¿Cómo se aplica la alta disponibilidad?

Los mecanismos de redundancia y conmutación por error previenen los puntos únicos de fallo, asegurando que la falla de un componente no interrumpa el funcionamiento del sistema, la aplicación o la función en su totalidad. Entre los mecanismos más comunes se incluyen:

  1. Componentes redundantes: Implemente varios servidores, conexiones de red, sistemas de almacenamiento y fuentes de alimentación dentro del sistema. Si falla un componente, otro toma el relevo sin interrupciones.
  2. Supervisión y alertas: Supervise constantemente el rendimiento y la disponibilidad. Cuando se detecta una interrupción u otro problema, se genera una alerta. Los administradores del sistema pueden identificar y resolver rápidamente cualquier problema, reduciendo el riesgo de tiempo de inactividad.
  3. Equilibrio de carga: Uno o varios servidores especializados interceptan las peticiones destinadas a un grupo de sistemas (back-end), distribuyendo el tráfico entre ellos para optimizar el rendimiento. Si falla un sistema back-end, los equilibradores de carga redirigen automáticamente las peticiones entrantes a los demás sistemas.
  4. Mecanismos de conmutación por error: Implemente configuraciones activo-pasivo o activo-activo o clústeres de conmutación por error para garantizar que si falla un sistema, otro pueda tomar el relevo con una interrupción mínima.
  5. Sistemas de copia de seguridad y recuperación: Asegúrese de que los datos y las aplicaciones pueden restaurarse rápidamente en caso de fallo. Estos sistemas pueden ser híbridos, estar ubicados en diferentes lugares, basarse en la nube o activarse rápidamente tras un incidente.

Compatibilidad con la alta disponibilidad

Los servicios y recursos que necesita implementar para proporcionar alta disponibilidad dependen del tipo de sistema, del tipo de alta disponibilidad y de los requisitos específicos de su organización. Estos son los elementos necesario:

  • Soporte técnico: Es la primera línea de defensa para las organizaciones que requieren asistencia con sus sistemas de alta disponibilidad. El personal de soporte especializado puede ayudar a solucionar, diagnosticar y resolver problemas, además de ofrecer orientación sobre las mejores prácticas para mantener altos niveles de disponibilidad.
  • Mantenimiento y actualizaciones: Para seguir siendo operativos y seguros, los sistemas de alta disponibilidad deben recibir un mantenimiento periódico y ejecutar las últimas versiones de software disponibles.
  • Planificación de la recuperación en caso de catástrofe: Es esencial para las organizaciones que necesitan restaurar sus sistemas rápidamente. Los procedimientos predeterminados y documentados aseguran que los administradores de sistemas no tengan que recordar ni improvisar soluciones en situaciones de emergencia.
  • Documentación y formación: Facilita a los administradores de sistemas la comprensión y gestión de sus sistemas de alta disponibilidad. La documentación puede incluir mejores prácticas, tutoriales detallados y sesiones de formación para asegurar una gestión eficiente.

Buenas prácticas: alta disponibilidad

Seguir las mejores prácticas mejora el rendimiento operativo y minimiza los costosos tiempos de inactividad. Estas mejores prácticas comunes pueden adaptarse a los sistemas, ubicaciones y resultados deseados de una organización.

  • Incorporación de redundancia: Cada nivel del sistema, desde los componentes de hardware hasta las conexiones de red, se refuerza para que, si falla un componente, el sistema siga funcionando como se espera.
  • Carga de tráfico equilibrada: Al distribuir las solicitudes entrantes entre varios sistemas, permite que los sistemas operativos asuman la carga de trabajo cuando alguno de ellos falla.
  • Supervisión del rendimiento y la disponibilidad: La supervisión continua y las alertas reducen el tiempo necesario para identificar y resolver los problemas.
  • Pruebas y validaciones frecuentes de los mecanismos de conmutación por error: Son pruebas rutinarias para verificar que los mecanismos de conmutación por error sigan siendo capaces de asumir una función de manera confiable en caso de interrupción.
  • Procedimientos de copia de seguridad y recuperación: Asegúrese de que los datos y las aplicaciones puedan restaurarse de manera rápida y eficiente en caso de fallo.
  • Actualización y mantenimiento periódicos de los sistemas: Esto garantiza que las aplicaciones y los sistemas se mantengan operativos y seguros a lo largo del tiempo.
  • Formación del personal: Las pruebas periódicas y el refuerzo de los procedimientos deben constituir un procedimiento operativo estándar, especialmente para las personas y los equipos responsables de la alta disponibilidad.
  • Consideración de las soluciones en la nube: El almacenamiento en la nube y la recuperación en caso de desastre permiten que los sistemas sigan funcionando independientemente del lugar donde se produzca el fallo.
  • Supervisión de la seguridad: Implemente medidas que impidan la filtración de datos o el acceso a los sistemas por parte de agentes malintencionados o usuarios no autorizados.