Per què els agents d’IA fracassen en les operacions empresarials reals
Els agents d’IA rarament fracassen perquè el model sigui feble: fracassen perquè els falta context operatiu, govern i punts de control humà en l’operació real. Repassem els cinc modes de fallada (context, coordinació, govern, verificació i valor), per què són estructurals i no un problema de prompt, i per què la solució duradora és un model operatiu —memòria viva, agents governats i humans en el bucle— i no un prompt més intel·ligent.
Els agents d’IA rarament fracassen perquè el model sigui feble. Fracassen perquè els falta context operatiu, govern i punts de control humà en l’operació real. En una demo, un agent sembla brillant: disposa d’un cas net, sense ambigüitat i sense conseqüències. En producció s’enfronta a coneixement dispers, regles implícites, sistemes heretats i decisions amb cost real — i és aquí on es trenca. El problema no és la intel·ligència del model; és el model operatiu que l’envolta.
Aquesta distinció importa perquè canvia del tot la resposta. Si la fallada fos del model, la solució seria esperar el GPT‑següent. Com que la fallada és del sistema que embolcalla el model, la solució és d’arquitectura: donar‑li memòria viva, governar el que executa i deixar que els humans decideixin allò crític. Això és exactament el que fa una capa d’operacions autònomes governades.
La resposta curta: fracassen en l’operació, no en la demo
Les dades del sector apunten totes en la mateixa direcció. Gartner prediu que més del 40% dels projectes d’IA agèntica es cancel·laran abans que acabi el 2027, impulsats per l’augment de costos, un valor de negoci poc clar i controls de risc inadequats (Gartner, Inc., 2025). I la recerca del MIT del 2025 va trobar que al voltant del 95% dels pilots d’IA generativa a l’empresa no van produir impacte mesurable en el compte de resultats, atribuint‑ho a una "bretxa d’aprenentatge" —eines genèriques que no aprenen ni s’adapten als fluxos de treball reals— i no a la qualitat del model (MIT NANDA, 2025).
La causa arrel
Els agents d’IA no fracassen perquè el model sigui feble, sinó perquè els falta context operatiu, govern i punts de control humà en l’operació real. La qualitat del model gairebé mai és el coll d’ampolla; el model operatiu sí.
Definició
Un agent d’IA empresarial és un sistema que percep, raona i executa accions sobre les eines i els processos d’una empresa per completar feina amb mínima intervenció humana. La paraula clau és executa: un assistent suggereix, un agent actua. I actuar sobre una operació real —enviar un correu, actualitzar un CRM, aprovar una despesa— és precisament el que separa una demo impressionant d’un sistema que pot fallar car.
Agent vs. assistent vs. automatització (i per què el "agent washing" amaga la diferència)
El terme "agent" s’ha convertit en màrqueting. S’etiqueta com a agèntic tant els xatbots com els scripts RPA i els fluxos deterministes. Aquesta confusió —el agent washing— amaga la diferència que de veritat prediu la fallada: quanta autonomia té el sistema per actuar i quant govern té aquesta autonomia.
| Dimensió | Automatització / RPA | Assistent (copilot) | Agent ingenu | Agent governat |
|---|---|---|---|---|
| Decideix el pas següent | No (regles fixes) | L’humà | El model, sol | El model, amb límits |
| Executa accions reals | Sí, deterministes | No, suggereix | Sí, sense frens | Sí, amb permisos i llindars |
| Context de l’empresa | Nul | El del prompt | El del prompt | Memòria viva traçable |
| Auditoria i rollback | Parcial | N/A | Cap | Complets |
| Mode de fallada típic | Es trenca si canvia la UI | Fricció, no escala | Actua sobre suposicions | Escala allò crític a l’humà |
La bretxa demo‑a‑producció
Una demo optimitza per al camí feliç. La producció és tot el contrari: entrades ambigües, excepcions, dades que contradiuen altres dades i accions amb conseqüències. L’agent que enlluerna a l’escenari mai va haver de preguntar‑se "tinc permís per fer això?" ni "qui decideix si això surt malament?". Aquestes preguntes són la feina real — i són de govern, no de model.
Els modes de fallada, agrupats
Fallades de context — l’agent no coneix l’empresa
Un agent sense memòria operativa actua sobre suposicions. No sap quin client és prioritari, quina política aplica, quin cas ja es va resoldre abans ni d’on va sortir una dada. Els LLM tenen accés limitat i no traçable al coneixement de l’empresa: allò que no és al prompt no existeix per a ells. La recerca sobre generació augmentada per recuperació mostra que ancorar la generació en un magatzem de coneixement extern i recuperable produeix sortides més específiques i factuals que un model que depèn només de la seva memòria paramètrica (Lewis et al., 2020). Sense aquest ancoratge, l’agent endevina.
Fallades de coordinació — desalineació multiagent
Quan diversos agents col·laboren, els errors es propaguen. La taxonomia MAST de la UC Berkeley, després d’analitzar sistemes multiagent reals, identifica 14 modes de fallada agrupats en tres categories: problemes d’especificació i disseny, desalineació entre agents, i verificació de tasques absent (Cemri et al., 2025). La conclusió és demolidora per a la narrativa de l’"eixam d’agents": la majoria de les fallades no són de raonament, sinó d’organització — agents que no comparteixen estat, que es contradiuen o que donen per acabada una tasca que ningú va verificar.
Fallades de govern — sense permisos, llindars, aprovacions ni auditoria
Un agent que pot actuar però no està governat és un passiu, no una capacitat. Sense permisos, sense llindars d’autoritat, sense aprovacions, sense auditoria i sense rollback, cada acció autònoma és una aposta. El AI Risk Management Framework del NIST organitza la gestió de risc d’IA al voltant de quatre funcions —GOVERN, MAP, MEASURE i MANAGE— i situa GOVERN com la funció transversal que sosté les altres (National Institute of Standards and Technology, 2023). La lectura per a operacions és directa: l’autonomia necessita una capa de govern explícita, integrada amb la gestió de risc de l’empresa, no afegida a posteriori.
Fallades de verificació — sense punt de control humà en allò crític
Com sap un agent que ha acabat bé? Sense una veritat de referència ni un checkpoint humà en els passos crítics, "fet" significa "el model creu que ha acabat". La taxonomia MAST assenyala la verificació de tasques absent com una categoria de fallada per dret propi (Cemri et al., 2025). En operacions, la verificació no és opcional: algú —o alguna cosa amb autoritat delegada— ha de confirmar que l’acció era correcta abans que sigui irreversible.
Fallades de valor — casos d’ús guiats pel hype
Molts projectes comencen per la tecnologia, no per la fricció. S’automatitza allò cridaner, no allò repetitiu i costós. El resultat és cost creixent sense ROI clar — exactament el patró que Gartner associa a les cancel·lacions (Gartner, Inc., 2025). El valor no apareix per posar un agent damunt d’un procés; apareix per triar el procés correcte, i això exigeix due diligence operativa prèvia.
Per què aquestes fallades són estructurals, no de prompt
La temptació és tractar cada fallada com un prompt que ajustar. Però millors prompts no donen al model accés traçable al coneixement de l’empresa, ni li posen permisos, ni creen un registre d’auditoria, ni insereixen un humà en la decisió crítica. Aquestes són propietats del sistema, no del text d’entrada.
L’autonomia sense govern és un passiu
L’autonomia sense govern no és una capacitat, és un risc. Els permisos, els llindars d’autoritat, les aprovacions, l’auditoria completa i el rollback són el que fa que l’execució d’un agent sigui segura de posar en producció.
Els agents fallen de manera estructural per dues raons que cap prompt resol. Primera: els LLM tenen accés limitat i no traçable al coneixement empresarial; sense una memòria connectada, actuen sobre allò que cap a la finestra. L’evidència de ReAct ho confirma des de l’altre costat: entrellaçar raonament i acció ancorant l’agent en fonts externes redueix l’al·lucinació i la propagació d’errors (Yao et al., 2023). Segona: l’autonomia és un multiplicador — amplifica tant els encerts com els errors — i sense govern amplifica sense frens.
La solució: context (Brain) + govern (Trust Layer) + humà en el bucle
BiVelio és una capa d’operacions autònomes governades: converteix el coneixement d’una empresa en operació autònoma i governada. No substitueix les teves eines; es connecta damunt d’elles. Cinc peces ataquen directament els cinc modes de fallada.
Brain — la memòria operativa viva i traçable
El Brain és la memòria operativa viva de l’empresa: ingereix documents, correus, trucades, sistemes i regles amb traçabilitat d’origen. Ataca la fallada de context d’arrel — l’agent deixa d’endevinar perquè decideix sobre el coneixement real de l’empresa, i cada dada conserva d’on va sortir. És el mateix principi d’ancoratge que la literatura de recuperació demostra que redueix l’error (Lewis et al., 2020; Yao et al., 2023).
Workers i Velio — due diligence abans d’automatitzar
Abans d’automatitzar res, vuit Workers predissenyats fan due diligence operativa i detecten fricció: Knowledge Analyst, Process Mapper, Friction Detector, Automation Strategist, Risk & Trust Analyst, ROI Analyst, Data Connector Worker i Velio Interview Worker. Velio, el consultor autònom, entrevista l’organització i mapeja l’operació. Això ataca la fallada de valor: s’automatitza allò repetitiu i costós identificat per l’anàlisi, no allò cridaner.
Agents governats — executen allò repetible, escalen allò crític
Els agents executen la feina repetible; els passos crítics s’escalen a un humà. La IA fa allò repetible, les persones decideixen allò crític. Així s’ataca la fallada de verificació sense renunciar a l’autonomia.
El Trust Layer — permisos, llindars, aprovacions, auditoria i rollback
La capa de confiança és el govern: permisos, llindars d’autoritat, aprovacions, auditoria completa i rollback. És la traducció operativa de la funció GOVERN del NIST (National Institute of Standards and Technology, 2023) — el govern com a propietat del sistema, no com a PDF de compliment.
La Taxa d’Autonomia — mesurar i governar quant corre sol
La Autonomy Console mesura i governa la Taxa d’Autonomia: quina part de l’operació corre de manera autònoma i governada. Allò que no es mesura no es governa; la consola converteix l’autonomia en una palanca que es puja de manera deliberada, no en una aposta.
Agent ingenu vs. capa d’operacions autònomes governades
| Agent ingenu | Capa d’operacions autònomes governades | |
|---|---|---|
| Context | El del prompt, sense origen | Brain: memòria viva amb traçabilitat |
| Elecció del cas | Guiada pel hype | Due diligence de Workers + Velio |
| Execució | Tot o res, sense frens | Repetible autònom, crític a l’humà |
| Govern | Cap | Permisos, llindars, aprovacions, auditoria, rollback |
| Verificació | "El model creu que ha acabat" | Checkpoints humans en allò crític |
| Mesura | Cap | Taxa d’Autonomia en una consola |
| Relació amb els teus sistemes | Els ignora o els substitueix | Es connecta damunt d’ells |
Casos d’ús: on els agents governats encerten
Back‑office sobre correu, WhatsApp, CRM i ERP
Una operació de back‑office creua correu, WhatsApp, CRM, calendari i ERP. BiVelio es connecta damunt d’aquestes eines —no les proveeix ni les reemplaça— i governa l’operació que les travessa. Un agent ingenu tocaria el CRM sense saber quin client és prioritari ni si té permís; un agent governat consulta el Brain, actua dins dels seus permisos i deixa rastre auditable de cada pas.
Passos d’alt risc que han de continuar sent humans
Aprovar una despesa per damunt d’un llindar, cancel·lar un contracte, respondre a una queixa delicada: són decisions que han de continuar sent humanes. El Trust Layer les atura automàticament en un llindar d’autoritat i les escala a la persona amb autoritat per decidir. La IA prepara la decisió amb tot el context; l’humà la pren. Aquest és el mateix model operatiu que desenvolupem en profunditat a El model operatiu humà en el bucle.
Glossari
- Brain: memòria operativa viva de l’empresa; ingereix documents, correus, trucades, sistemes i regles amb traçabilitat d’origen.
- Workers: vuit treballadors predissenyats que fan due diligence operativa i detecten fricció abans d’automatitzar.
- Velio: consultor i entrevistador autònom que mapeja l’operació durant la due diligence.
- Agents: sistemes governats que executen la feina repetible i escalen allò crític.
- Trust Layer: capa de confiança amb permisos, llindars d’autoritat, aprovacions, auditoria completa i rollback.
- HITL (humà en el bucle): model en què la IA executa allò repetible i l’humà decideix allò crític.
- Taxa d’Autonomia: mètrica de quina part de l’operació corre de manera autònoma i governada.
- Autonomy Console: consola única on es mesura i governa la Taxa d’Autonomia.
- Autonomia governada: autonomia subjecta a permisos, llindars i auditoria — el contrari de l’autonomia sense frens.
FAQ
De veritat fallen els agents d’IA el 40% de les vegades?
No exactament. Gartner prediu que més del 40% dels projectes d’IA agèntica es cancel·laran abans que acabi el 2027, per costos creixents, valor poc clar i controls de risc inadequats (Gartner, Inc., 2025). És una xifra de projectes cancel·lats, no d’accions errònies — i apunta a fallades de cost, valor i govern, no de qualitat del model.
El problema és el model o el model operatiu?
El model operatiu. La recerca del MIT atribueix el fracàs de ~95% dels pilots a una bretxa d’aprenentatge —eines que no s’adapten als fluxos reals—, no a la potència del model (MIT NANDA, 2025). Models millors no arreglen la falta de context traçable ni de govern.
Poden uns prompts millors arreglar les fallades en producció?
No de manera duradora. Un prompt no dona accés traçable al coneixement de l’empresa, ni permisos, ni auditoria, ni un checkpoint humà. Aquestes són propietats del sistema. Ancorar l’agent en fonts reals redueix l’error (Lewis et al., 2020; Yao et al., 2023), però això és arquitectura, no redacció.
Quina és la diferència entre un agent i RPA?
L’RPA executa regles deterministes fixes i es trenca quan canvia la interfície o apareix una excepció. Un agent decideix el seu pas següent de manera dinàmica. Un agent governat ho fa a més amb permisos, llindars i auditoria. Ho desenvolupem a Agents d’IA vs. automatització de fluxos vs. RPA.
Com redueix la fallada tenir un humà en el bucle?
Inserint un punt de control en les decisions crítiques i irreversibles. La IA prepara l’acció amb tot el context; l’humà amb autoritat l’aprova. Així s’ataca la fallada de verificació —"fet" deixa de significar "el model ho creu"— sense renunciar a automatitzar allò repetible.
Més lectures
- Com governar agents d’IA en processos de negoci
- Agents d’IA empresarials: riscos, controls i arquitectura
- Brain, Workers i Agents: l’arquitectura de les operacions amb IA
- Comença per un diagnòstic del Brain o coneix la plataforma completa.
Referencias
- #agents
- #govern
- #human-in-the-loop
- #operacions
- #autonomia-governada