La semana pasada, Microsoft presentó una nueva función dentro de Copilot donde un modelo de IA genera una respuesta y un segundo modelo la revisa antes de entregarla al usuario. No es un detalle técnico menor. Es una empresa de dos billones de dólares diciéndole al mercado que un solo agente de IA, sin supervisión, no es suficiente.
Y tiene sentido. A medida que los agentes pasan de responder preguntas a ejecutar acciones reales, como enviar correos, modificar agendas, mover datos entre sistemas o contactar clientes, el riesgo de un error deja de ser un texto mal redactado y se convierte en una factura enviada al cliente equivocado o un correo con información confidencial dirigido a quien no corresponde.
La pregunta que pocas empresas se están haciendo antes de implementar agentes es simple pero crítica. ¿Qué permisos tiene este agente y qué pasa si se equivoca?
El problema no es la IA, es la falta de límites
El OWASP, la organización de referencia mundial en seguridad de software, publicó recientemente su lista de los 10 principales riesgos de agentes autónomos. El riesgo número uno no es que el modelo alucine o genere información incorrecta. Es que el agente tenga permisos excesivos para actuar sin validación humana.
Esto ocurre más de lo que parece. Una empresa instala un agente para automatizar la gestión de cobranza. Le da acceso al CRM, al correo electrónico y a la base de datos de clientes. El agente funciona perfecto durante semanas. Hasta que un día clasifica mal una cuenta, envía un mensaje de cobro agresivo a un cliente que ya había pagado y genera un problema comercial que toma días resolver.
El agente no falló porque fuera malo. Falló porque nadie definió en qué situaciones debía detenerse y pedir confirmación.
Tres controles que todo agente necesita
No hace falta construir un sistema de seguridad complejo para empezar con buen pie. Hay tres controles básicos que cualquier empresa debería implementar antes de darle autonomía real a un agente.
Scope definido y limitado. Un agente no debería poder hacer "todo". Debería tener un alcance claro. Si su trabajo es gestionar la agenda, no necesita acceso al correo ni a la facturación. Si su trabajo es clasificar correos entrantes, no necesita permiso para responderlos. El principio es el mismo que aplicas con un empleado nuevo: le das acceso solo a lo que necesita para hacer su trabajo, y amplías gradualmente a medida que demuestra criterio.
Validación humana para acciones irreversibles. Hay acciones que se pueden deshacer fácilmente, como crear un borrador, organizar información o generar un resumen. Y hay acciones que no, como enviar un correo, publicar contenido, modificar una factura o contactar a un cliente. Para las segundas, el agente debería mostrar lo que va a hacer y esperar confirmación antes de ejecutar. Esto agrega unos segundos al proceso, pero elimina los errores que cuestan horas o días reparar.
Registro completo de acciones. Cada decisión que toma un agente debería quedar registrada. No solo el resultado final, sino el razonamiento que lo llevó ahí. Cuando algo sale mal, y eventualmente algo saldrá mal, necesitas poder reconstruir qué pasó, por qué el agente tomó esa decisión y en qué punto del proceso se desvió. Sin trazabilidad, diagnosticar un problema se vuelve imposible y corregirlo se convierte en adivinanza.
La supervisión también puede ser automática
Lo interesante de la tendencia actual es que la supervisión no tiene que ser siempre humana. Microsoft resolvió esto poniendo un segundo modelo a revisar el trabajo del primero. Hay empresas que implementan un agente supervisor que monitorea las decisiones de otros agentes y alerta cuando detecta anomalías.
Este modelo de jerarquía entre agentes es más práctico de lo que suena. Un agente de cobranza envía un resumen diario a un agente supervisor. El supervisor revisa si alguna acción se sale de los parámetros normales, como un monto de cobro inusualmente alto o un mensaje enviado fuera de horario. Si detecta algo raro, escala a un humano. Si todo está en orden, el proceso sigue sin fricción.
La clave está en diseñar el sistema asumiendo que los errores van a ocurrir y construyendo las barreras antes de que pasen, no después.
Autonomía progresiva, no autonomía total
El error más común al implementar agentes es darles demasiada autonomía demasiado rápido. La tentación es entendible. Si la IA puede hacer el trabajo, ¿para qué intervenir? Pero la experiencia de las empresas que llevan meses operando con agentes muestra un patrón claro. Las implementaciones exitosas empiezan con agentes muy acotados que van ganando permisos a medida que demuestran consistencia.
Semana uno, el agente genera borradores y un humano los revisa antes de enviar. Semana cuatro, el agente envía directamente los mensajes rutinarios y solo pide aprobación para casos fuera de lo normal. Mes tres, el agente maneja el flujo completo y escala únicamente las excepciones.
Ese camino gradual no solo reduce riesgos. También genera confianza en el equipo. Las personas que trabajan junto a agentes necesitan ver que hay controles, que alguien puede frenar al sistema si algo sale mal. Sin esa confianza, la adopción se estanca aunque la tecnología funcione perfectamente.
Antes de automatizar, define los límites
La próxima vez que consideres darle una tarea a un agente de IA, antes de pensar en qué modelo usar o qué herramientas conectar, hazte estas preguntas. ¿Qué es lo peor que puede pasar si el agente se equivoca? ¿Puedo deshacer esa acción fácilmente? ¿Quién se entera si algo sale mal? ¿Hay un registro que me permita entender qué pasó?
Si no tienes respuesta clara para alguna de ellas, no necesitas un mejor modelo de IA. Necesitas mejores límites.