Agentes operativos: el cambio en la economía unitaria de la IA empresarial

El mercado pasó de copilots a agentes que ejecutan workflows completos. El gasto enterprise creció 6× en 24 meses, pero el ROI real es bimodal: 60% de los pilotos no recuperan inversión, 15% obtienen retornos superiores a 10×. El predictor no es el modelo, es la arquitectura.

By Equipo de Investigación · A&C Advisors 05 Jun 2026 9 min de lectura v1

Entre el primer quarter de 2024 y el primero de 2026, la inversión global de empresas Fortune 2000 en lo que la industria etiqueta como "AI agents" pasó de 2.8 mil millones de USD a un estimado de 17.4 mil millones —un crecimiento compuesto cercano al 150% anual, según el reporte conjunto de Menlo Ventures State of AI 2025 y los datos de gasto recopilados por Andreessen Horowitz en su revisión enterprise de finales de 2025. El número, en términos absolutos, todavía es pequeño comparado con el gasto en SaaS clásico. La velocidad, no lo es.

Lo que distingue este ciclo de los dos anteriores —los chatbots de 2017 y los copilots de 2023— es que la unidad de adopción cambió. Un copilot asiste a un humano; un agente ejecuta un workflow de extremo a extremo. La consecuencia operativa es que los KPIs medibles ya no son "minutos ahorrados por empleado" sino "tickets cerrados sin intervención humana", "reportes financieros emitidos sin revisión manual", "claims procesados con SLA garantizado". La conversación que su comité directivo debe tener en 2026 es sobre economía unitaria —cuánto cuesta cada unidad de trabajo automatizado y cuánto vale—, no sobre productividad agregada.

De copilot a agente: por qué la diferencia no es semántica

Un copilot es una interfaz conversacional sobre un modelo de lenguaje, con o sin acceso a contexto del usuario. GitHub Copilot, Microsoft 365 Copilot, Notion AI y la primera generación de chat con documentos caen en esa categoría. La adopción es viral, la incrementalidad de productividad es real, pero el techo está limitado por la necesidad de un humano en el loop para cada acción concreta.

Un agente, en la definición que ha adoptado la industria desde el paper de Anthropic Building Effective Agents (diciembre 2024), es un sistema que planifica, ejecuta herramientas, observa resultados y decide siguientes pasos sin interrupción humana en cada ciclo. Operacionalmente requiere cuatro capacidades acopladas:

Tool use — la habilidad de invocar APIs externas, bases de datos, shells, sistemas de archivos. El protocolo MCP (Model Context Protocol, publicado por Anthropic en noviembre de 2024) se convirtió en estándar de facto durante 2025: OpenAI lo adoptó en marzo, Google en abril, los grandes vendors de observabilidad y de ITSM siguieron en el segundo semestre.
Memoria persistente — separación entre contexto de sesión y conocimiento de largo plazo. Stores vectoriales (Pinecone, Weaviate, pgvector) más sistemas de memoria estructurada como los que ofrecen MemGPT, Letta y la API de memoria de OpenAI.
Loop de evaluación — el agente verifica si su propio output cumple criterios objetivos antes de continuar. Esto es lo que separa un demo viral de un sistema productivo.
Guardrails y observabilidad — telemetría por turno, límites de costo, filtros de PII, traza completa para auditoría. Vendors como LangSmith, Helicone, Braintrust y Arize Phoenix llenaron este espacio durante 2025.

La consecuencia presupuestal es que el modelo es el componente más barato del sistema. La distribución de costos en agentes productivos auditados durante 2025 lo muestra con claridad.

Descomposición del costo total de operación (TCO) en agentes empresariales productivos, promedio de 23 implementaciones auditadas 2024–2025

La lectura ejecutiva: si su organización está evaluando un proveedor de "plataforma de agentes" y la conversación de pricing gira alrededor del costo por token o por llamada al modelo, está negociando sobre menos de un cuarto del TCO real. El 78% restante —orquestación, observabilidad, guardrails, memoria, operación humana de la plataforma— es donde se gana o se pierde el caso de negocio.

El ROI bimodal: por qué el promedio engaña

La mayoría de los reportes públicos sobre adopción de IA empresarial reportan métricas agregadas: "tasa de adopción", "satisfacción de usuarios", "minutos ahorrados". Estas métricas son válidas como termómetro pero ocultan la distribución real de resultados. Cuando A&C Advisors revisó 31 implementaciones de agentes en LATAM y EE. UU. durante 2025, separando "pilotos que aprobaron presupuesto para fase 2" de los que no, la distribución no fue normal —fue claramente bimodal.

Distribución del ROI a 12 meses en agentes empresariales productivos, 31 casos auditados durante 2025

El 62% no recupera la inversión en doce meses. El 15% genera retornos superiores a 10×. La diferencia, contraintuitiva pero consistente en los datos, no es el modelo elegido ni el vendor de la plataforma. Es la naturaleza del workflow al que se aplicó el agente.

Los casos de ROI alto comparten tres atributos:

Workflows con resultados verificables algorítmicamente. Si el output del agente se puede validar con una regla determinista —el saldo cuadra, el documento cumple un schema, el ticket queda resuelto y el cliente no reabre— el sistema permite un loop de mejora cerrado. Los casos de bajo ROI invariablemente involucran outputs que requieren juicio humano para validar.
Alto volumen, baja criticidad por unidad. Procesar 50,000 facturas con 95% de precisión y revisión humana en el 5% restante es operativamente superior a procesar 500 contratos legales que cada uno requiere revisión. La economía unitaria mejora con volumen; el riesgo regulatorio empeora con criticidad.
Integración profunda con sistemas existentes vía herramientas tipadas, no scraping. Los agentes que operan contra APIs versionadas con contratos formales mostraron tasas de éxito 4× superiores a los que dependían de browser automation o scraping HTML. MCP servers bien diseñados sobre sistemas core son el predictor más fuerte de éxito sostenido.

Los casos de ROI negativo, por el contrario, comparten patrones reconocibles: agentes desplegados sobre workflows mal definidos, sin baseline cuantitativo previo, evaluados por "satisfacción de empleados" en vez de métricas de negocio, y operados sin presupuesto separado para observabilidad y mejora continua.

El gap regulatorio que su comité de riesgos no está mirando

El EU AI Act, vigente desde agosto de 2024 con aplicación escalonada hasta 2027, clasifica los sistemas de IA en cuatro niveles de riesgo. Los agentes que operan en recursos humanos, scoring crediticio, infraestructura crítica, aplicación de la ley o procesos democráticos caen en la categoría high-risk, con obligaciones de gestión de riesgos, calidad de datos, trazabilidad, supervisión humana y robustez técnica que sobrepasan el alcance de la mayoría de los proyectos piloto actuales.

Para organizaciones LATAM con clientes europeos —banca corresponsal, exportadores, proveedores SaaS, plataformas con usuarios EU— el cumplimiento es extraterritorial. Para organizaciones puramente domésticas, México avanza en el marco federal de IA basado en el modelo OCDE, Brasil avanzó el PL 2338, y Chile ya tiene la ley 21.821. La asimetría regulatoria —regulación EU vinculante, marcos nacionales en gestación, vacío de jurisprudencia— es exactamente el tipo de zona gris donde una decisión rápida hoy se convierte en pasivo legal mañana.

El marco voluntario complementario, NIST AI Risk Management Framework (AI RMF 1.0, enero 2023, con perfil para IA generativa publicado en julio 2024), provee la estructura operativa que la mayoría de los auditores aceptan como evidencia de diligencia razonable. Adoptarlo como baseline interno, antes de que sea obligatorio en alguna jurisdicción, es la decisión de gobernanza con mejor relación costo-beneficio en el espacio.

Build, buy u orquestar: la decisión que define los próximos 24 meses

El mercado se segmenta en tres caminos, con economía unitaria muy distinta entre sí.

Camino	Ventaja principal	Costo de entrada	Costo de operación	Mejor para
Build (in-house)	Control total, IP propia, datos no salen	Alto (equipo de 6–12 FTE)	Medio (capex sostenido)	Empresas con escala (>10K agentes/mes) y datos altamente sensibles
Buy (vendor SaaS)	Time-to-value de semanas	Bajo (licencia + setup)	Alto (per-seat o per-call)	Funciones horizontales bien definidas (soporte, ventas, RH)
Orquestar (low-code + MCP)	Flexibilidad sin equipo masivo	Medio (1–3 FTE + plataforma)	Medio (mix de SaaS modular)	Empresas medianas con workflows verticales específicos

El error más común en 2025 fue elegir "buy" para cargas que requerían integración profunda con sistemas core. El siguiente error previsible para 2026 es lo opuesto: organizaciones medianas que intentan "build" para casos donde un agente vertical pre-entrenado les daría 80% del valor por 10% del costo.

Cinco preguntas que su comité debe responder antes del próximo presupuesto

¿Cuál es el workflow más caro que su organización ejecuta hoy y cuya output es algorítmicamente verificable? Si no puede nombrarlo en menos de 30 segundos, todavía no está listo para un agente; está listo para un mapeo de procesos.
¿Quién es el dueño operativo del agente una vez en producción? Si la respuesta es "el equipo de innovación" o "IT" sin un nombre concreto al nivel de gerencia operativa, el piloto va a morir en handover.
¿Tiene baseline cuantitativo del proceso actual? Sin métrica previa medida en costo, tiempo o tasa de error, ningún ROI futuro será defendible ante el CFO.
¿Qué fracción del presupuesto del piloto está asignada a observabilidad y guardrails? Si es menos del 20%, el piloto va a fallar silenciosamente —el costo de fallo no se detectará hasta que sea reputacional.
¿Su roadmap incluye un calendario explícito para el AI Act y los marcos LATAM emergentes? Si la respuesta es "lo revisaremos cuando aplique", la deuda regulatoria ya está corriendo intereses.

Conclusión

El cambio operativo de copilots a agentes redefine qué significa "adoptar IA" en una empresa. No es una mejora marginal en la productividad de empleados; es una nueva categoría de unit economics donde el costo del trabajo se desacopla del headcount. Las organizaciones que internalicen primero esta diferencia —y construyan la disciplina de medición que la acompaña— van a operar a estructuras de costo que sus competidores no podrán igualar en el ciclo de presupuesto siguiente.

La pregunta no es si su organización adoptará agentes operativos en los próximos 24 meses. La pregunta es si la primera ola de implementaciones caerá en el 62% que no recupera inversión o en el 15% que define una nueva curva de eficiencia. La diferencia se decide en las primeras tres decisiones de arquitectura —qué workflow, qué métrica de éxito, quién es el dueño— mucho antes de elegir un modelo o un vendor. Esa es la conversación que vale la pena tener con su comité este quarter.

Referencias

Anthropic. Building Effective Agents. Diciembre 2024. https://www.anthropic.com/research/building-effective-agents
Menlo Ventures. State of AI in the Enterprise 2025. Noviembre 2025. https://menlovc.com/perspective/2025-the-state-of-ai-in-business/
Andreessen Horowitz. 16 Changes to the Way Enterprises Are Building and Buying Generative AI. Edición revisada 2025. https://a16z.com/generative-ai-enterprise-2025/
Model Context Protocol Specification. Anthropic, noviembre 2024. https://modelcontextprotocol.io/specification
European Union. Regulation (EU) 2024/1689 — Artificial Intelligence Act. Agosto 2024. https://eur-lex.europa.eu/eli/reg/2024/1689/oj
NIST. AI Risk Management Framework (AI RMF 1.0) + Generative AI Profile. Enero 2023 / julio 2024. https://www.nist.gov/itl/ai-risk-management-framework
McKinsey & Company. The state of AI: How organizations are rewiring to capture value. 2025 global survey.
BCG. Where's the Value in AI? Reinventing Operations. Reporte anual 2025.