BLOG

Seguridad de inferencia de IA mejorada con Intel OpenVINO: Aprovechamiento de Intel IPU, F5 NGINX Plus y Red Hat OpenShift

Miniatura de Paul Pindell
Pablo Pindell
Publicado el 5 de junio de 2025

Imagine un mundo donde las tareas de inferencia de IA no solo se ejecuten más rápido sino también de forma más segura, con un esfuerzo mínimo requerido para la configuración y el mantenimiento. ¿Suena demasiado bueno para ser verdad? La última solución basada en Intel OpenVINO hace esto realidad al integrar la unidad de procesamiento de infraestructura (IPU) “Dayton Peak” E2100 de Intel, F5 NGINX Plus y Red Hat OpenShift. Es una configuración innovadora diseñada para desarrolladores y empresas que buscan escalar cargas de trabajo de IA de forma segura y eficiente, al tiempo que agilizan la instalación y el funcionamiento.

Permítame explicarle en profundidad cómo se unen todas las piezas de este rompecabezas y por qué esta integración cambia las reglas del juego para la seguridad y la escalabilidad de la inferencia de IA.

1.Transferencia de tareas críticas de infraestructura de IA a la IPU de Intel.

En esencia, esta configuración está diseñada para potenciar la inferencia de IA al descargar tareas de infraestructura críticas a la IPU Intel. Esto permite que el sistema host, que ejecuta el servidor de inferencia Intel OpenVINO, dedique sus recursos a lo que realmente importa: ofrecer resultados de inferencia rápidos y precisos. Combinado con F5 NGINX Plus y el sistema operativo Enterprise Linux de Red Hat, OpenShift y MicroShift, el sistema logra un equilibrio único de rendimiento, escalabilidad y seguridad.

Este es el flujo de trabajo principal: el tráfico cifrado fluye desde el cliente de IA a NGINX Plus, que se implementa directamente en la IPU Intel. NGINX Plus actúa como un proxy de tráfico, descifrando datos y enrutándolos de forma segura a través del bus PCIe a los servidores de inferencia Intel OpenVINO alojados en el sistema Dell R760. Luego, los resultados se envían a través de NGINX Plus para su entrega al cliente de IA.

2.Principales ventajas arquitectónicas de ejecutar infraestructura en la IPU de Intel

Si bien el flujo de trabajo en sí es atractivo, las ventajas arquitectónicas agregan aún más valor. Al trasladar las tareas de infraestructura a la IPU, la solución ofrece beneficios de rendimiento y una clara división de responsabilidades para los administradores.

Un beneficio crucial de implementar NGINX Plus en la IPU Intel es la descarga de tareas de infraestructura de la CPU del sistema host. Cosas como el enrutamiento del tráfico, el descifrado y el control de acceso, que pueden consumir muchos recursos, se gestionan completamente en la IPU. Esto significa que la CPU host tiene significativamente más ciclos disponibles para concentrarse en cargas de trabajo específicas de la aplicación, como ejecutar modelos de inferencia Intel OpenVINO adicionales o manejar procesos de IA que consumen muchos recursos.

En situaciones del mundo real, esto se traduce en un mejor uso de su costoso hardware de servidor de alto rendimiento. En lugar de verse sobrecargada por tareas de infraestructura en segundo plano, la CPU del host puede funcionar a plena capacidad para las cargas de trabajo que más le interesan.

Otro beneficio único de la solución es la separación de los servicios de infraestructura y las cargas de trabajo de las aplicação . Al ejecutar todas las tareas de infraestructura (como NGINX Plus, administración de red y control de acceso) en la IPU Intel mientras se mantiene el servidor de inferencia Intel OpenVINO en el host, hemos creado una clara división de “línea brillante” entre las responsabilidades del plano de control.

El administrador de la aplicação Intel OpenVINO es responsable de gestionar las cargas de trabajo de inferencia, implementar y escalar modelos de IA y optimizar el rendimiento a nivel de aplicación. Mientras que el administrador de infraestructura supervisa el entorno Intel IPU, gestiona el enrutamiento, aplica el control de acceso (a través de reglas FXP) y garantiza que los servicios de infraestructura funcionen de manera segura y eficiente mediante la configuración de la instancia NGINX Plus.

Esta separación de funciones elimina la ambigüedad, fortalece la colaboración organizacional y garantiza que cada administrador pueda concentrarse directamente en su respectivo dominio de especialización.

En conjunto, estos beneficios hacen que esta solución no solo sea práctica sino también eficiente para escalar los flujos de trabajo de IA empresarial y al mismo tiempo mantener la utilización de recursos y la seguridad en primer nivel.

3.Red Hat OpenShift y MicroShift: Impulsando la automatización y la simplificación

Uno de los aspectos destacados de este sistema es cómo aprovecha Red Hat MicroShift y OpenShift DPU Operators para hacer que la configuración y el escalamiento sean prácticamente sencillos. Honestamente, este tipo de automatización parece magia cuando la ves en acción. Permítanme explicarlo:

Hay dos grupos. Está el clúster OpenShift que se ejecuta en el sistema host. Específicamente, se trata de un nodo de trabajo OpenShift y se ejecuta en Dell R760. El segundo clúster es un clúster MicroShift. Se implementa en los núcleos de brazo de la IPU Intel. Esta versión liviana de OpenShift proporciona la flexibilidad de los contenedores sin la sobrecarga de un entorno Kubernetes completo.

Estos clústeres trabajan juntos a través de operadores de DPU, que hacen el trabajo pesado detrás de escena. Hablan entre sí e intercambian datos sobre pods y redes activos. Esta conexión es especialmente importante para gestionar de forma dinámica la seguridad y las reglas de tráfico.

Aquí está la parte que realmente hace la vida más fácil a los desarrolladores: la creación de reglas dinámicas. Anteriormente, configurar las reglas FXP (utilizadas para administrar el control de acceso al tráfico PCIe) requería esfuerzo manual y conocimiento de programación P4. Ahora, todo lo que debe hacer es implementar sus cargas de trabajo y los operadores se encargarán de todo automáticamente:

El operador crea nuevas reglas FXP dinámicamente siempre que se implementan pods de inferencia OpenVINO etiquetados adecuadamente. Estas reglas FXP permiten la comunicación a través del bus PCIe y, a medida que las cargas de trabajo aumentan o disminuyen, el sistema ajusta automáticamente estas reglas de acceso, eliminando las conjeturas de la configuración.

Este nivel de automatización significa que cualquier persona, desde los desarrolladores hasta los administradores de sistemas, puede concentrarse en las cargas de trabajo de IA sin quedar atrapado en los detalles de la configuración de la infraestructura.

4.El flujo de trabajo de inferencia de IA en acción

Ahora vayamos al meollo del asunto de cómo funciona todo este sistema para la inferencia de IA. Tomemos el ejemplo de reconocer especies animales en imágenes utilizando el kit de herramientas de implementación de aprendizaje profundo Intel OpenVINO. Así es como se ve el flujo de trabajo paso a paso.

En primer lugar, los datos de imagen cifrados se envían desde un cliente de IA a través de una llamada API GRPCS. NGINX Plus, que se ejecuta en la IPU Intel, descifra los datos y actúa como un proxy de tráfico. Luego, este tráfico fluye de forma segura a través del bus PCIe hacia los servidores de inferencia Intel OpenVINO alojados en el Dell R760. Los servidores de inferencia Intel OpenVINO procesan las imágenes utilizando el modelo ResNet AI para determinar las especies en cada imagen. Por ejemplo, podría inferirse: “Este es un golden retriever” o “Ese es un gato atigrado”. Los resultados se envían a través de la misma vía: a través de NGINX Plus y luego al cliente.

El sistema se puede configurar para gestionar varios clientes de IA que procesen simultáneamente lotes de imágenes. Incluso con múltiples clientes ejecutando solicitudes de inferencia en un bucle, el sistema permanecerá seguro, sin interrupciones y con capacidad de respuesta.

5.Seguridad mejorada con control de acceso inteligente

Hablemos de uno de los beneficios clave de este sistema: la seguridad. La IPU Intel no solo procesa el tráfico: también protege activamente la comunicación entre la infraestructura y las cargas de trabajo de inferencia que se ejecutan en el host.

Así es como funciona: La IPU utiliza reglas FXP para controlar el tráfico a través de la interfaz PCIe. Sólo puede fluir el tráfico autorizado por estas reglas generadas dinámicamente (administradas por los operadores de DPU). Esto garantiza una comunicación segura al tiempo que bloquea el acceso no autorizado al sistema host. Este tipo de seguridad en capas ayuda a mitigar los riesgos, especialmente para las empresas que procesan datos confidenciales a través de canales de IA.

6.¿Por qué esta solución destaca?

Para mí, la magia de esta solución radica en su combinación perfecta de rendimiento, automatización y seguridad. Al aislar la gestión de la infraestructura en la IPU mientras se alojan cargas de trabajo de inferencia en la máquina host, Intel, Red Hat y F5 han creado una configuración que es a la vez eficiente y segura.

Esto es lo que hace que esta configuración sea revolucionaria:

  • Configuración optimizada: Olvídese de las configuraciones manuales. Con operadores DPU y creación de reglas dinámicas, el sistema es lo más parecido a plug-and-play que existe.
  • Escalamiento dinámico: Ya sea que esté ejecutando un pod de inferencia o 20, las reglas de comunicación y seguridad se adaptan automáticamente.
  • Seguridad mejorada: La clara separación entre la infraestructura y las cargas de trabajo, combinada con el control de acceso en el bus PCIe, crea un límite de seguridad sólido.
  • Utilización optimizada de recursos: La descarga de tareas de infraestructura a la IPU libera la CPU host para tareas informáticas de alta prioridad.
  • División clara de responsabilidades: Los administradores pueden centrarse en sus dominios (aplicação o infraestructura) sin interferir entre sí.

Un gran avance para la inferencia de IA

Esta solución basada en Intel OpenVINO reúne hardware y software de una manera que parece sencilla. La IPU E2100 de Intel, Red Hat OpenShift y F5 NGINX Plus ofrecen el mejor ejemplo de cómo simplificar los procesos de inferencia de IA complejos y, al mismo tiempo, mejorar la seguridad y la escalabilidad.

Ya sea que sea un desarrollador, un arquitecto de infraestructura o un tomador de decisiones empresariales, esta solución ofrece un plan práctico para administrar cargas de trabajo de IA en un entorno moderno y en contenedores. Si esto ha despertado su interés, no dude en comunicarse con Intel, F5 o Red Hat para explorar cómo esta configuración puede adaptarse a su flujo de trabajo.

Es emocionante ver cómo evoluciona esta tecnología y, por mi parte, no puedo esperar a ver el próximo conjunto de innovaciones. Para obtener más información, mire mi video de demostración en LinkedIn .