Cuando un agente de IA responde una pregunta, el costo es visible. Consumió cierta cantidad de tokens de entrada, generó otros de salida, y la factura refleja eso. Pero cuando un agente trabaja de forma autónoma, la dinámica cambia por completo. Antes de darte una respuesta, el agente planifica, descompone la tarea en pasos, llama herramientas, inspecciona resultados, reintenta si algo falla, resume lo que encontró y recién ahí produce el output final. Cada uno de esos pasos consume tokens. Y ninguno aparece en la respuesta que vos ves.
Este fenómeno ya tiene nombre. Se llama inflación de tokens, y en abril de 2026 se convirtió en una de las conversaciones más urgentes de la industria.
El problema que nadie mide
Google reveló que en octubre de 2025 estaba procesando más de 1,3 cuatrillones de tokens mensuales en sus plataformas de IA, más de veinte veces el volumen de un año antes. NVIDIA está apostando abiertamente por la economía de la inferencia, señalando que la demanda de cómputo para agentes autónomos crece más rápido que para cualquier otro tipo de aplicación de IA. Y Deloitte ya describe a los tokens como "la nueva moneda de la economía de la inteligencia artificial".
La industria que vende la infraestructura celebra el crecimiento. Más tokens significan más facturación. Pero para la empresa que compra IA, más tokens no significan necesariamente más inteligencia. En muchos casos, significan ineficiencia que nadie está auditando.
La propia guía de ingeniería de Anthropic lo dice con claridad. Su equipo recomienda tratar el contexto como un recurso finito y buscar "el conjunto más pequeño posible de tokens de alta señal" para cada tarea. No es una optimización menor. Es una filosofía de diseño opuesta a la tendencia dominante de meter más contexto en cada prompt y ver qué pasa.
Dónde se esconden los tokens
Un agente que parece ejecutar una sola acción puede estar consumiendo tokens en cinco o seis pasos invisibles. Entender dónde ocurre ese consumo es el primer paso para controlarlo.
- Planificación interna. Antes de actuar, el agente razona sobre cómo descomponer la tarea. Ese razonamiento genera tokens que nunca ves en el resultado final.
- Llamadas a herramientas. Cada vez que el agente consulta un calendario, lee un correo o busca en la web, genera un prompt nuevo para interpretar la respuesta de esa herramienta.
- Reintentos. Si una herramienta falla o devuelve un resultado inesperado, el agente reintenta. Cada reintento es un ciclo completo de tokens adicionales.
- Resumen de contexto. Cuando la conversación o el historial de acciones crece, el agente resume lo anterior para no exceder la ventana de contexto. Ese resumen consume tokens para producirse y luego se inyecta como contexto en el siguiente paso.
- Memoria. Si el agente guarda o recupera información de memoria a largo plazo, esa operación también tiene un costo en tokens que rara vez se contabiliza.
El resultado es que una tarea que parece simple puede consumir entre cinco y quince veces más tokens que una interacción directa de pregunta-respuesta. Y si esa tarea se ejecuta decenas de veces al día de forma automatizada, el volumen acumulado cambia las cuentas.
Más contexto no es más inteligencia
Uno de los mitos más persistentes en la IA empresarial es que si algo de contexto es bueno, más contexto es mejor. La evidencia dice lo contrario. Una investigación conocida como "Lost in the Middle" demostró que los modelos de lenguaje tienen dificultades para usar información relevante cuando está enterrada en contextos largos. Funcionan mejor cuando la información clave está al principio o al final. Una evaluación de Chroma sobre dieciocho modelos encontró que el rendimiento se vuelve cada vez más inestable a medida que crece la longitud de entrada.
Esto tiene una implicación directa para cualquier empresa que opera con agentes. Si tu estrategia es conservar todo el historial, cargar toda la documentación disponible y dejar que el agente "busque lo que necesite", estás pagando por ruido. No por inteligencia.
Qué puede hacer tu empresa ahora
La buena noticia es que este problema tiene soluciones concretas que no requieren cambiar de proveedor ni de modelo.
- Medir antes de optimizar. Revisá cuántos tokens consume cada agente por tarea, no solo por mes. La mayoría de las APIs ofrecen métricas de uso detalladas. Si tu plataforma no te muestra ese desglose, pedilo.
- Reducir el contexto a lo esencial. Cada instrucción de sistema, cada documento cargado y cada historial de conversación que inyectás en el prompt tiene un costo. Preguntá qué necesita realmente el agente para resolver esta tarea específica y quitá todo lo demás.
- Limitar los reintentos. Un agente que reintenta indefinidamente hasta que algo funciona es un generador de costos. Definí un límite de reintentos y una acción alternativa cuando se alcanza.
- Auditar las tareas automatizadas. Las tareas que corren en piloto automático son las más peligrosas en términos de consumo. Revisalas periódicamente para verificar que el volumen de tokens por ejecución sigue siendo razonable.
- Separar tareas simples de tareas complejas. No todo necesita un agente con razonamiento avanzado. Las tareas mecánicas pueden resolverse con modelos más pequeños y baratos, reservando los modelos potentes para decisiones que realmente lo justifiquen.
La automatización con IA genera valor real. Pero ese valor se erosiona si el costo de operar los agentes crece sin control. Las empresas que tratan los tokens como un recurso operativo, y no como un detalle técnico invisible, son las que van a mantener márgenes sanos mientras escalan. Las que ignoran esta variable van a descubrir que su automatización más exitosa es también la más cara.