En la primera mitad de este año, tanto los patrones de implementación de inferencias como una arquitectura de aplicação de IA emergente han comenzado a estandarizarse y a brindar una mejor perspectiva sobre los impactos futuros en todo, desde la red hasta la entrega y seguridad de las aplicação . Confiamos en los resultados de nuestra reciente investigación centrada en la IA de que la inferencia se implementará tanto en las instalaciones como en la nube (patrón autogestionado), así como también se consumirá a través de ofertas de proveedor de nube (patrón alojado en la nube) y como servicio (patrón de inferencia como servicio).
Sin embargo, la arquitectura de IA emergente depende en gran medida de la generación aumentada de recuperación (RAG), que incorpora fuentes de datos (gráficos de conocimiento y bases de datos vectoriales) en la arquitectura de la aplicação . Las investigaciones indican que el 70 % de las empresas que utilizan GenAI emplean herramientas y bases de datos vectoriales para ampliar los modelos base ( Databricks, 2024 ).
La consecuencia de este patrón arquitectónico es cuádruple.
Es importante señalar que el 90% de los desafíos que enfrentan las organizaciones con respecto a la arquitectura de IA no son nuevos. Los cambios para cumplir con las expectativas de visibilidad, limitación de velocidad, enrutamiento, etc. son adicionales a las capacidades existentes que la mayoría de las empresas ya poseen.
De todas las capacidades necesarias para entregar y proteger aplicações de IA, estimo que solo un 10 % son completamente nuevas y casi todas están relacionadas con indicaciones y la naturaleza no estructurada del tráfico de aplicação de IA. Es este 10% el que da lugar a nuevos servicios de aplicação como seguridad inmediata, gestión inmediata y optimización inmediata junto con funciones relacionadas con la seguridad de datos. F5 ya ha demostrado su compromiso de abordar estas necesidades a través de asociaciones con Portkey y Prompt Security .
Aquí es también donde estamos viendo la introducción de puertas de enlace de IA. Ahora bien, la definición de puerta de enlace de IA y las capacidades que aporta al mercado varían según quién ofrezca el producto, pero, al igual que las puertas de enlace de API, las puertas de enlace de IA tienden a reunir capacidades de seguridad y enrutamiento de aplicação en un único punto de control estratégico para las organizaciones. Pero, una vez más, las capacidades de la “cosa” son en su mayoría nuevas capacidades incrementales específicas para el tráfico de IA y el resto ya existen.
Para mí lo realmente interesante es el nuevo nivel, porque ahí es donde se necesitarán capacidades de seguridad y entrega de aplicação nuevas y existentes.
De hecho, la introducción de un nuevo nivel está provocando el surgimiento de una nueva arquitectura de centro de datos con una infraestructura capaz de proporcionar los recursos de computación, almacenamiento y red necesarios para ejecutar la inferencia de IA a escala. En este nivel es donde están surgiendo cosas como las estructuras de red de IA, las fábricas de IA o como sea que las llamemos. Independientemente del nombre, esta nueva construcción de infraestructura incluye la capacidad de operar construcciones de infraestructura existentes en nuevos sistemas de hardware . Éste es el número 4 en el ingenioso diagrama proporcionado.
Pero también se necesitan algunas nuevas capacidades en el número 2. Si bien el puente aquí es una ruta de datos NS bastante estándar con una necesidad obvia de escalar, proteger y enrutar el tráfico de API (sí, esa API es para inferir, pero sigue siendo una API), es probable que veamos nuevos algoritmos de equilibrio de carga (o al menos, nuevos criterios de decisión incorporados a los algoritmos existentes) en este momento.
Por ejemplo, los recuentos de tokens y las ventanas de contexto son particularmente importantes para comprender el rendimiento y la carga que una solicitud determinada impone al sistema receptor, sin mencionar el impacto de los recuentos de tokens en el costo. Por lo tanto, no es un gran salto de lógica reconocer que estas variables pueden llegar a ser parte de cualquier decisión de equilibrio de carga o enrutamiento de tráfico que se tome en el punto n.°2.
El punto n.° 4 es quizás el más interesante porque nos devuelve a los días en que se aprovechaba el hardware para descargar tareas de red de los servidores. Sí, este es el regreso del enfoque de arquitectura de “ dejar que los servidores sirvan ”. En el mundo moderno, eso significa aprovechar las DPU como un sistema holístico en el que se puede implementar la seguridad y la entrega de aplicação , dejando la CPU en el servidor de inferencia para, bueno, la inferencia. Es un patrón que hemos visto antes y que resolverá con éxito cualquier problema con los servicios de inferencia de escalamiento (y, por lo tanto, de rendimiento).
El impacto de la arquitectura de IA en la entrega y seguridad de las aplicação es a la vez mundano y monumental. Es mundano porque los desafíos son en su mayoría los mismos. Es monumental porque introduce puntos adicionales en la arquitectura donde las organizaciones pueden abordar estratégicamente esos desafíos.
La forma en que la industria responda tanto a lo mundano como a lo monumental determinará el futuro de la distribución y la seguridad de las aplicação .