Hasta hace poco, un agente de inteligencia artificial vivía dentro de una caja de texto. Podía responder preguntas, redactar correos y resumir documentos, pero siempre dependía de que alguien ejecutara el paso siguiente. Si necesitabas mover un dato de un sistema a otro, el agente te decía cómo hacerlo y tú lo hacías.
Eso está cambiando. En las últimas semanas, tanto OpenAI como Anthropic han presentado modelos capaces de operar un computador de forma nativa. No hablamos de un complemento externo ni de un modo experimental. Los modelos más recientes pueden interpretar lo que aparece en pantalla, hacer clic, escribir en campos de texto y navegar entre aplicaciones como lo haría una persona sentada frente al teclado.
Qué significa "usar el computador" en la práctica
Imagina que todos los días alguien de tu equipo entra a un portal de proveedores, descarga una factura en PDF, copia el monto y el número de documento, abre una planilla y registra los datos. Son cinco minutos cada vez, pero multiplicados por decenas de facturas al mes, se convierten en horas.
Un agente con capacidad de "computer use" puede hacer exactamente eso. Ve la pantalla, identifica los elementos, ejecuta las acciones y pasa al siguiente paso. No necesita una integración programada con cada sistema. Opera sobre la interfaz visible, igual que un humano.
Esto resuelve un problema que muchas PYMEs conocen bien: no todos los sistemas que usas tienen API. Tu software de contabilidad puede ser antiguo, tu portal de impuestos no ofrece conexión directa y tu banco solo funciona con un navegador específico. Hasta ahora, la única forma de conectar esos mundos era una persona haciendo copiar y pegar. Ahora existe una alternativa.
De asistente a operador
La diferencia entre un asistente y un operador es simple. El asistente te dice qué hacer. El operador lo hace.
GPT-5.4, el modelo más reciente de OpenAI, integra esta capacidad de forma nativa. Puede interpretar capturas de pantalla, emitir comandos de teclado y ratón, y encadenar acciones entre varias aplicaciones. Claude, de Anthropic, ofrece una capacidad similar con Computer Use, que permite al modelo interactuar directamente con el escritorio.
El salto no es solo técnico. Cambia la forma en que piensas sobre automatización. En vez de preguntarte "con qué sistemas se puede integrar mi agente", la pregunta pasa a ser "qué tarea quiero que haga". Si una persona puede hacerlo frente a una pantalla, un agente con computer use puede intentarlo.
Dónde tiene sentido y dónde no
Como toda herramienta nueva, conviene separar lo útil de lo exagerado. El computer use funciona especialmente bien en tareas que comparten tres características:
- Son repetitivas y siguen pasos predecibles
- Involucran mover información entre sistemas que no se hablan entre sí
- No requieren juicio complejo ni decisiones ambiguas en cada paso
Ejemplos concretos donde una PYME puede aprovechar esta capacidad:
- Descargar documentos tributarios desde el portal del SII y registrarlos en una planilla
- Extraer datos de correos electrónicos y cargarlos en un CRM que no tiene API
- Completar formularios repetitivos en portales de clientes o proveedores
- Conciliar información entre un sistema de facturación y una cuenta bancaria
Donde todavía no funciona bien es en tareas que requieren interpretación subjetiva, navegación impredecible o interacciones que cambian de forma cada vez. Si el portal cambia su diseño frecuentemente o si el proceso tiene muchas bifurcaciones, el agente puede equivocarse. Por ahora, funciona mejor como un ejecutor supervisado que como un trabajador completamente autónomo.
La combinación que multiplica el impacto
Lo más interesante no es el computer use por sí solo, sino lo que ocurre cuando se combina con otras capacidades que los agentes ya tienen. Un agente que puede leer correos, buscar en la web, consultar documentos internos y además operar aplicaciones en pantalla tiene un rango de acción mucho mayor que cualquiera de esas habilidades por separado.
Piensa en un proceso de cobranza. El agente revisa qué facturas están vencidas en tu planilla, entra al portal bancario para verificar si hubo pagos recientes, cruza la información, redacta un correo personalizado para cada cliente moroso y lo envía. Todo sin que nadie toque el teclado.
O en la gestión de un equipo distribuido. El agente revisa el calendario para identificar reuniones de la semana, abre el documento de notas compartido, extrae las tareas pendientes y las carga en el sistema de gestión de proyectos. Lo que antes tomaba media hora de trabajo administrativo se resuelve en minutos.
Qué esperar de aquí en adelante
El computer use todavía está en sus primeras versiones. Los modelos actuales son más lentos operando una interfaz gráfica que llamando a una API directa, y pueden cometer errores cuando la pantalla muestra algo inesperado. Pero la dirección es clara: los agentes de IA están dejando de ser conversacionales para volverse operacionales.
Para una PYME, esto significa que la barrera de entrada a la automatización sigue bajando. Ya no necesitas que todos tus sistemas tengan API. Ya no necesitas un equipo de desarrollo para conectar herramientas. Lo que necesitas es identificar los procesos repetitivos que consumen tiempo de tu equipo y evaluar si un agente puede asumirlos.
La pregunta ya no es si la IA puede ayudarte con tus operaciones. La pregunta es cuántas horas a la semana estás dispuesto a seguir perdiendo antes de probarlo.