Agents

Per què els agents d’IA fracassen en les operacions empresarials reals

Els agents d’IA rarament fracassen perquè el model sigui feble: fracassen perquè els falta context operatiu, govern i punts de control humà en l’operació real. Repassem els cinc modes de fallada (context, coordinació, govern, verificació i valor), per què són estructurals i no un problema de prompt, i per què la solució duradora és un model operatiu —memòria viva, agents governats i humans en el bucle— i no un prompt més intel·ligent.

BiVelio Research2 de juliol del 202612 min de lectura

Els agents d’IA rarament fracassen perquè el model sigui feble. Fracassen perquè els falta context operatiu, govern i punts de control humà en l’operació real. En una demo, un agent sembla brillant: disposa d’un cas net, sense ambigüitat i sense conseqüències. En producció s’enfronta a coneixement dispers, regles implícites, sistemes heretats i decisions amb cost real — i és aquí on es trenca. El problema no és la intel·ligència del model; és el model operatiu que l’envolta.

Aquesta distinció importa perquè canvia del tot la resposta. Si la fallada fos del model, la solució seria esperar el GPT‑següent. Com que la fallada és del sistema que embolcalla el model, la solució és d’arquitectura: donar‑li memòria viva, governar el que executa i deixar que els humans decideixin allò crític. Això és exactament el que fa una capa d’operacions autònomes governades.

La resposta curta: fracassen en l’operació, no en la demo

Les dades del sector apunten totes en la mateixa direcció. Gartner prediu que més del 40% dels projectes d’IA agèntica es cancel·laran abans que acabi el 2027, impulsats per l’augment de costos, un valor de negoci poc clar i controls de risc inadequats (Gartner, Inc., 2025). I la recerca del MIT del 2025 va trobar que al voltant del 95% dels pilots d’IA generativa a l’empresa no van produir impacte mesurable en el compte de resultats, atribuint‑ho a una "bretxa d’aprenentatge" —eines genèriques que no aprenen ni s’adapten als fluxos de treball reals— i no a la qualitat del model (MIT NANDA, 2025).

La causa arrel

Els agents d’IA no fracassen perquè el model sigui feble, sinó perquè els falta context operatiu, govern i punts de control humà en l’operació real. La qualitat del model gairebé mai és el coll d’ampolla; el model operatiu sí.

Definició

Un agent d’IA empresarial és un sistema que percep, raona i executa accions sobre les eines i els processos d’una empresa per completar feina amb mínima intervenció humana. La paraula clau és executa: un assistent suggereix, un agent actua. I actuar sobre una operació real —enviar un correu, actualitzar un CRM, aprovar una despesa— és precisament el que separa una demo impressionant d’un sistema que pot fallar car.

Agent vs. assistent vs. automatització (i per què el "agent washing" amaga la diferència)

El terme "agent" s’ha convertit en màrqueting. S’etiqueta com a agèntic tant els xatbots com els scripts RPA i els fluxos deterministes. Aquesta confusió —el agent washing— amaga la diferència que de veritat prediu la fallada: quanta autonomia té el sistema per actuar i quant govern té aquesta autonomia.

Dimensió	Automatització / RPA	Assistent (copilot)	Agent ingenu	Agent governat
Decideix el pas següent	No (regles fixes)	L’humà	El model, sol	El model, amb límits
Executa accions reals	Sí, deterministes	No, suggereix	Sí, sense frens	Sí, amb permisos i llindars
Context de l’empresa	Nul	El del prompt	El del prompt	Memòria viva traçable
Auditoria i rollback	Parcial	N/A	Cap	Complets
Mode de fallada típic	Es trenca si canvia la UI	Fricció, no escala	Actua sobre suposicions	Escala allò crític a l’humà

La bretxa demo‑a‑producció

Una demo optimitza per al camí feliç. La producció és tot el contrari: entrades ambigües, excepcions, dades que contradiuen altres dades i accions amb conseqüències. L’agent que enlluerna a l’escenari mai va haver de preguntar‑se "tinc permís per fer això?" ni "qui decideix si això surt malament?". Aquestes preguntes són la feina real — i són de govern, no de model.

Els modes de fallada, agrupats

Fallades de context — l’agent no coneix l’empresa

Un agent sense memòria operativa actua sobre suposicions. No sap quin client és prioritari, quina política aplica, quin cas ja es va resoldre abans ni d’on va sortir una dada. Els LLM tenen accés limitat i no traçable al coneixement de l’empresa: allò que no és al prompt no existeix per a ells. La recerca sobre generació augmentada per recuperació mostra que ancorar la generació en un magatzem de coneixement extern i recuperable produeix sortides més específiques i factuals que un model que depèn només de la seva memòria paramètrica (Lewis et al., 2020). Sense aquest ancoratge, l’agent endevina.

Fallades de coordinació — desalineació multiagent

Quan diversos agents col·laboren, els errors es propaguen. La taxonomia MAST de la UC Berkeley, després d’analitzar sistemes multiagent reals, identifica 14 modes de fallada agrupats en tres categories: problemes d’especificació i disseny, desalineació entre agents, i verificació de tasques absent (Cemri et al., 2025). La conclusió és demolidora per a la narrativa de l’"eixam d’agents": la majoria de les fallades no són de raonament, sinó d’organització — agents que no comparteixen estat, que es contradiuen o que donen per acabada una tasca que ningú va verificar.

Fallades de govern — sense permisos, llindars, aprovacions ni auditoria

Un agent que pot actuar però no està governat és un passiu, no una capacitat. Sense permisos, sense llindars d’autoritat, sense aprovacions, sense auditoria i sense rollback, cada acció autònoma és una aposta. El AI Risk Management Framework del NIST organitza la gestió de risc d’IA al voltant de quatre funcions —GOVERN, MAP, MEASURE i MANAGE— i situa GOVERN com la funció transversal que sosté les altres (National Institute of Standards and Technology, 2023). La lectura per a operacions és directa: l’autonomia necessita una capa de govern explícita, integrada amb la gestió de risc de l’empresa, no afegida a posteriori.

Fallades de verificació — sense punt de control humà en allò crític

Com sap un agent que ha acabat bé? Sense una veritat de referència ni un checkpoint humà en els passos crítics, "fet" significa "el model creu que ha acabat". La taxonomia MAST assenyala la verificació de tasques absent com una categoria de fallada per dret propi (Cemri et al., 2025). En operacions, la verificació no és opcional: algú —o alguna cosa amb autoritat delegada— ha de confirmar que l’acció era correcta abans que sigui irreversible.

Fallades de valor — casos d’ús guiats pel hype

Molts projectes comencen per la tecnologia, no per la fricció. S’automatitza allò cridaner, no allò repetitiu i costós. El resultat és cost creixent sense ROI clar — exactament el patró que Gartner associa a les cancel·lacions (Gartner, Inc., 2025). El valor no apareix per posar un agent damunt d’un procés; apareix per triar el procés correcte, i això exigeix due diligence operativa prèvia.

Per què aquestes fallades són estructurals, no de prompt

La temptació és tractar cada fallada com un prompt que ajustar. Però millors prompts no donen al model accés traçable al coneixement de l’empresa, ni li posen permisos, ni creen un registre d’auditoria, ni insereixen un humà en la decisió crítica. Aquestes són propietats del sistema, no del text d’entrada.

L’autonomia sense govern és un passiu

L’autonomia sense govern no és una capacitat, és un risc. Els permisos, els llindars d’autoritat, les aprovacions, l’auditoria completa i el rollback són el que fa que l’execució d’un agent sigui segura de posar en producció.

Els agents fallen de manera estructural per dues raons que cap prompt resol. Primera: els LLM tenen accés limitat i no traçable al coneixement empresarial; sense una memòria connectada, actuen sobre allò que cap a la finestra. L’evidència de ReAct ho confirma des de l’altre costat: entrellaçar raonament i acció ancorant l’agent en fonts externes redueix l’al·lucinació i la propagació d’errors (Yao et al., 2023). Segona: l’autonomia és un multiplicador — amplifica tant els encerts com els errors — i sense govern amplifica sense frens.

La solució: context (Brain) + govern (Trust Layer) + humà en el bucle

BiVelio és una capa d’operacions autònomes governades: converteix el coneixement d’una empresa en operació autònoma i governada. No substitueix les teves eines; es connecta damunt d’elles. Cinc peces ataquen directament els cinc modes de fallada.

Brain — la memòria operativa viva i traçable

El Brain és la memòria operativa viva de l’empresa: ingereix documents, correus, trucades, sistemes i regles amb traçabilitat d’origen. Ataca la fallada de context d’arrel — l’agent deixa d’endevinar perquè decideix sobre el coneixement real de l’empresa, i cada dada conserva d’on va sortir. És el mateix principi d’ancoratge que la literatura de recuperació demostra que redueix l’error (Lewis et al., 2020; Yao et al., 2023).

Workers i Velio — due diligence abans d’automatitzar

Abans d’automatitzar res, vuit Workers predissenyats fan due diligence operativa i detecten fricció: Knowledge Analyst, Process Mapper, Friction Detector, Automation Strategist, Risk & Trust Analyst, ROI Analyst, Data Connector Worker i Velio Interview Worker. Velio, el consultor autònom, entrevista l’organització i mapeja l’operació. Això ataca la fallada de valor: s’automatitza allò repetitiu i costós identificat per l’anàlisi, no allò cridaner.

Agents governats — executen allò repetible, escalen allò crític

Els agents executen la feina repetible; els passos crítics s’escalen a un humà. La IA fa allò repetible, les persones decideixen allò crític. Així s’ataca la fallada de verificació sense renunciar a l’autonomia.

El Trust Layer — permisos, llindars, aprovacions, auditoria i rollback

La capa de confiança és el govern: permisos, llindars d’autoritat, aprovacions, auditoria completa i rollback. És la traducció operativa de la funció GOVERN del NIST (National Institute of Standards and Technology, 2023) — el govern com a propietat del sistema, no com a PDF de compliment.

La Taxa d’Autonomia — mesurar i governar quant corre sol

La Autonomy Console mesura i governa la Taxa d’Autonomia: quina part de l’operació corre de manera autònoma i governada. Allò que no es mesura no es governa; la consola converteix l’autonomia en una palanca que es puja de manera deliberada, no en una aposta.

Agent ingenu vs. capa d’operacions autònomes governades

	Agent ingenu	Capa d’operacions autònomes governades
Context	El del prompt, sense origen	Brain: memòria viva amb traçabilitat
Elecció del cas	Guiada pel hype	Due diligence de Workers + Velio
Execució	Tot o res, sense frens	Repetible autònom, crític a l’humà
Govern	Cap	Permisos, llindars, aprovacions, auditoria, rollback
Verificació	"El model creu que ha acabat"	Checkpoints humans en allò crític
Mesura	Cap	Taxa d’Autonomia en una consola
Relació amb els teus sistemes	Els ignora o els substitueix	Es connecta damunt d’ells

Casos d’ús: on els agents governats encerten

Back‑office sobre correu, WhatsApp, CRM i ERP

Una operació de back‑office creua correu, WhatsApp, CRM, calendari i ERP. BiVelio es connecta damunt d’aquestes eines —no les proveeix ni les reemplaça— i governa l’operació que les travessa. Un agent ingenu tocaria el CRM sense saber quin client és prioritari ni si té permís; un agent governat consulta el Brain, actua dins dels seus permisos i deixa rastre auditable de cada pas.

Passos d’alt risc que han de continuar sent humans

Aprovar una despesa per damunt d’un llindar, cancel·lar un contracte, respondre a una queixa delicada: són decisions que han de continuar sent humanes. El Trust Layer les atura automàticament en un llindar d’autoritat i les escala a la persona amb autoritat per decidir. La IA prepara la decisió amb tot el context; l’humà la pren. Aquest és el mateix model operatiu que desenvolupem en profunditat a El model operatiu humà en el bucle.

Glossari

Brain: memòria operativa viva de l’empresa; ingereix documents, correus, trucades, sistemes i regles amb traçabilitat d’origen.
Workers: vuit treballadors predissenyats que fan due diligence operativa i detecten fricció abans d’automatitzar.
Velio: consultor i entrevistador autònom que mapeja l’operació durant la due diligence.
Agents: sistemes governats que executen la feina repetible i escalen allò crític.
Trust Layer: capa de confiança amb permisos, llindars d’autoritat, aprovacions, auditoria completa i rollback.
HITL (humà en el bucle): model en què la IA executa allò repetible i l’humà decideix allò crític.
Taxa d’Autonomia: mètrica de quina part de l’operació corre de manera autònoma i governada.
Autonomy Console: consola única on es mesura i governa la Taxa d’Autonomia.
Autonomia governada: autonomia subjecta a permisos, llindars i auditoria — el contrari de l’autonomia sense frens.

FAQ

De veritat fallen els agents d’IA el 40% de les vegades?

No exactament. Gartner prediu que més del 40% dels projectes d’IA agèntica es cancel·laran abans que acabi el 2027, per costos creixents, valor poc clar i controls de risc inadequats (Gartner, Inc., 2025). És una xifra de projectes cancel·lats, no d’accions errònies — i apunta a fallades de cost, valor i govern, no de qualitat del model.

El problema és el model o el model operatiu?

El model operatiu. La recerca del MIT atribueix el fracàs de ~95% dels pilots a una bretxa d’aprenentatge —eines que no s’adapten als fluxos reals—, no a la potència del model (MIT NANDA, 2025). Models millors no arreglen la falta de context traçable ni de govern.

Poden uns prompts millors arreglar les fallades en producció?

No de manera duradora. Un prompt no dona accés traçable al coneixement de l’empresa, ni permisos, ni auditoria, ni un checkpoint humà. Aquestes són propietats del sistema. Ancorar l’agent en fonts reals redueix l’error (Lewis et al., 2020; Yao et al., 2023), però això és arquitectura, no redacció.

Quina és la diferència entre un agent i RPA?

L’RPA executa regles deterministes fixes i es trenca quan canvia la interfície o apareix una excepció. Un agent decideix el seu pas següent de manera dinàmica. Un agent governat ho fa a més amb permisos, llindars i auditoria. Ho desenvolupem a Agents d’IA vs. automatització de fluxos vs. RPA.

Com redueix la fallada tenir un humà en el bucle?

Inserint un punt de control en les decisions crítiques i irreversibles. La IA prepara l’acció amb tot el context; l’humà amb autoritat l’aprova. Així s’ataca la fallada de verificació —"fet" deixa de significar "el model ho creu"— sense renunciar a automatitzar allò repetible.

Més lectures

Com governar agents d’IA en processos de negoci
Agents d’IA empresarials: riscos, controls i arquitectura
Brain, Workers i Agents: l’arquitectura de les operacions amb IA
Comença per un diagnòstic del Brain o coneix la plataforma completa.

Referencias

Cemri, M., Pan, M. Z., Yang, S., Agrawal, L. A., Chopra, B., Tiwari, R., Keutzer, K., Parameswaran, A., Klein, D., Ramchandran, K., Zaharia, M., Gonzalez, J. E., & Stoica, I. (2025). Why Do Multi-Agent LLM Systems Fail? arXiv Preprint arXiv:2503.13657. https://arxiv.org/abs/2503.13657

Gartner, Inc. (2025). Gartner Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027 [Press Release]. Gartner. https://www.gartner.com/en/newsroom/press-releases/2025-06-25-gartner-predicts-over-40-percent-of-agentic-ai-projects-will-be-canceled-by-end-of-2027

Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W., Rocktäschel, T., Riedel, S., & Kiela, D. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems (NeurIPS), 33, 9459–9474. https://arxiv.org/abs/2005.11401

MIT NANDA. (2025). The GenAI Divide: State of AI in Business 2025 [Techreport]. Massachusetts Institute of Technology (MIT NANDA initiative). https://fortune.com/2025/08/18/mit-report-95-percent-generative-ai-pilots-at-companies-failing-cfo/

National Institute of Standards and Technology. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0) (Techreport NIST AI 100-1). NIST. https://doi.org/10.6028/NIST.AI.100-1

Yao, S., Zhao, J., Yu, D., Du, N., Shafran, I., Narasimhan, K., & Cao, Y. (2023). ReAct: Synergizing Reasoning and Acting in Language Models. International Conference on Learning Representations (ICLR). https://arxiv.org/abs/2210.03629

#agents
#govern
#human-in-the-loop
#operacions
#autonomia-governada