BLOG | OFICINA DEL CTO

Cuando entran los agentes, tu modelo de seguridad se va

Miniatura de Lori MacVittie
Lori MacVittie
Publicado el 3 de septiembre de 2025

La mayoría de las herramientas de seguridad empresarial actuales se basan en supuestos muy concretos. No es algo negativo, porque esos supuestos se han probado y confirmado miles de veces en los últimos veinte años. El principal es que el software actúa según lo programado, que podemos perfilar a los usuarios y que los sistemas responden de forma predecible en condiciones conocidas. Eso funcionó mientras protegías APIs, servidores web o personas con malas prácticas en sus contraseñas.

Pero todo eso deja de funcionar cuando llegan los agentes autónomos.

Los agentes no siempre siguen un guion. Tampoco actúan siguiendo rutas establecidas de forma fija. Razonan, planifican, se adaptan y, si no estás atento, pueden comportarse mal. Eso convierte tu manual clásico de defensa en una táctica excesivamente optimista.

Por suerte, los expertos en seguridad ya están comenzando a enfrentar esta realidad. Una señal clara llegó con un estudio: “Seguridad en la IA Agragente: Modelado de amenazas para agentes LLM.” No se limita a presentar nuevos escenarios preocupantes, sino que propone un marco operativo innovador, pensado para el mundo de agentes en el que nos estamos sumergiendo de lleno.

SHIELD: Un marco creado para los agentes, no para las API

Los autores presentan SHIELD, un enfoque por capas para gestionar agentes autónomos en entornos reales. No es solo una lista de vectores de ataque, sino un plan de gobernanza. SHIELD incluye:

  • Entornos aislados: Define con precisión qué puede tocar un agente (herramientas, archivos, API) antes de actuar. Aplica un control de acceso riguroso. La premisa principal es sólida y ya existen múltiples iniciativas para regular el uso de herramientas por parte de la IA en general.
  • Intervención humana: Incluye puntos de control o rutas de escalada antes de ejecutar acciones irreversibles. Es evidente, ya que forma parte esencial de casi todo proceso de automatización.
  • Restricciones de la interfaz: Normas estrictas de entrada y salida para la interacción del agente con el sistema. Parece limpieza de datos de entrada y validación de respuestas. Vaya.
  • Seguimiento de la ejecución: Supervisa las llamadas a herramientas, los cambios en el estado de la memoria y los ciclos de planificación. Observabilidad. Observabilidad. Observabilidad.
  • Registro: Captura los pasos del razonamiento y el uso de herramientas, no solo los resultados. Este punto es clave para crear un buen acrónimo, pero está ligado al seguimiento anterior y forma parte de una estrategia integral de observabilidad.
  • Repetición determinista: Reconstruye sesiones de inferencia para auditar por qué ocurrió algo y no solo qué. Me cuesta mucho creer que sea posible, ya que recrear el “estado” de un agente, de cualquier IA en realidad, es casi imposible. Pero si consiguen hacerlo, sería impresionante.

Aún estamos en las primeras fases, pero la idea clave de SHIELD es crucial: la IA agente necesita nuevos puntos de control, nuevas premisas y nuevos modelos mentales. Quizás ya lo hemos comentado recientemente, como en este documento técnico. Ahora, vamos a resumir lo que eso significa realmente para los responsables y profesionales de la seguridad.

Los cinco cambios que debe afrontar la seguridad para una IA con capacidad de acción

1. Del modelo estático de amenazas a la supervisión dinámica del comportamiento
Los modelos de amenaza tradicionales suponen que los atacantes siguen patrones conocidos, como movimientos laterales, escalada de privilegios y entrega de payload maliciosos. Pero los agentes no se rigen por ningún patrón conocido. Saben improvisar.

Los equipos de seguridad deben comenzar a monitorizar comportamientos emergentes. Para ello, deben desarrollar telemetría sobre lo que hacen los agentes, cómo razonan y cuándo se desvían de los caminos esperados. Semántica. Observabilidad. No se necesita decir más.

2. Del control perimetral a la aplicación de políticas en tiempo real
Los firewalls y las protecciones a nivel de gateway no sirven cuando el agente LLM ya está dentro utilizando herramientas, accediendo a archivos o enviando peticiones API de forma autónoma.

La seguridad debe acercarse al tiempo de ejecución, aplicando permisos limitados a cada tarea, aislamiento del entorno y validación de intención en tiempo real. Piénsalo como política por inferencia: debemos comprobar lo que un agente puede hacer justo cuando decide hacerlo. Esto representa la fusión de los planos de datos y control, y la seguridad debe formar parte activa.

3. Del registro de eventos a la captura de contexto
No puedes proteger lo que no comprendes, y con los agentes, entender requiere más que simples registros. Necesitas cadenas de avisos, metadatos de llamadas a herramientas, instantáneas de memoria y contexto de ejecución, todo registrado y rastreable. El contexto es el nuevo perímetro.

¿Por qué el agente programó cinco reuniones y envió un correo a un proveedor a las 2 de la madrugada? No lo sabrás si no puedes reproducir su árbol de decisiones. Esto no es observabilidad. Es análisis forense del agente.

4. De revisiones de código a pruebas de comportamiento
La lógica de un agente no reside en el código, sino en la combinación de pesos, indicaciones, herramientas y contexto. Por eso la revisión estática resulta inútil.

Necesitas una prueba de calidad conductual en entorno aislado: simula casos extremos, entradas adversas y límites de permisos. Haz que los agentes funcionen como ingenieros en formación, no como módulos de código deterministas.

El red teaming debe evolucionar de “penetrar el sistema” a “manipular al agente” repetidamente, con un ojo atento a las cascadas de fallos.

5.De la identidad del usuario a la identidad y el alcance del agente
Hoy en día, el control de acceso se centra principalmente en el usuario: ¿quién es usted y qué roles tiene? Esto no funcionará para los agentes. Ahora es necesario asignar identidad, alcance de privilegios y límites de tareas a los actores de IA, junto con expiración automática (piense en TTL), aislamiento de la memoria compartida y registros de auditoría persistentes.

En pocas palabras: la confianza cero ahora incluye a los actores no humanos. Y debes ganar su confianza cada vez que usen una herramienta o accedan a un recurso.

La seguridad necesita adaptarse

La IA agente no es solo una novedad; representa un cambio a nivel de sistemas. Cuando los modelos adquieren autonomía, tu sistema gana entropía y tus antiguas creencias se vuelven riesgos.

Lo que SHIELD consigue bien no es solo su lista de controles. Es la filosofía, que parte de dos supuestos clave:

  • Debes asumir que los agentes se saldrán del guion, ya sea por naturaleza o por manipulación
  • Ten en cuenta que los errores de razonamiento pueden generar efectos secundarios en todo el sistema

Los equipos de seguridad que las adopten ahora crearán políticas de protección que puedan crecer. ¿Y los que no? Serán quienes tengan que limpiar el desorden que dejaron esos agentes "que solo querían ayudar".

No, tus marcos actuales no bastan. Los agentes ya están aquí. Es momento de enfrentarlos con una gobernanza que realmente comprenda qué son.