Tornar a Research
Agents

El graf de coneixement com a context ambient dels agents

Un agent sense context és només un model. La recuperació vectorial clàssica tracta el coneixement com una bossa de fragments independents — i per això falla en les preguntes que més importen a una empresa. Repassem els problemes reals que viuen els desenvolupadors de RAG (amb dades), per què l'estructura de graf guanya on el vector es queda curt, com es posiciona el panorama (Pinecone, LangChain, LlamaIndex, Neo4j, Microsoft GraphRAG) i com pensem ser els millors en el context que de debò compta: l'operació d'una empresa.

BiVelio Research8 min de lectura
Xarxa de coneixement amb nodes lluminosos interconnectats (god nodes) i polsos de dades sobre fons fosc

La promesa del RAG (generació augmentada per recuperació) és simple: dona al model els documents correctes i respondrà bé (Lewis et al., 2020). La realitat de qui el porta a producció és més aspra. El coneixement d'una empresa no és una pila de textos solts: és una xarxa de casos, clients, factures, tasques i agents connectats entre si. Aplanar això a fragments independents perd justament el que dona sentit — i els números ho confirmen.

Aquest article és la nostra tesi tècnica: per què tractem el coneixement com un graf i l'utilitzem com a context ambient dels agents, no com una bossa de fragments.

El problema que viuen els desenvolupadors

Qualsevol que hagi construït un RAG real ha topat amb la mateixa paret: afegir més context no millora la resposta, de vegades l'empitjora. No és una anècdota, està mesurat. Liu et al. van mostrar que els models utilitzen bé la informació al principi i al final del context, però la perden quan cau al mig (Liu et al., 2023).

Precisió de QA segons on cau el dato rellevant (GPT-3.5, 20 documents)
Dato a l'inici del context75.8%
Dato al mig del context53.8%

Mateix dato, mateixa pregunta: només canvia la posició del document rellevant dins del context. La caiguda al mig supera els 20 punts.

Fuente: Liu et al., 2023 — Lost in the Middle (arXiv:2307.03172)

Amb 30 documents l'efecte és tan sever que posar el dato al mig (50,5%) rendeix per sota de respondre sense cap document (56,1%): el context mal ordenat resta (Liu et al., 2023). I això és només un dels diversos errors que documenta la literatura.

−22 pp
Caiguda de precisió
dato rellevant "perdut al mig"
7
Punts de fallada del RAG
documentats en sistemes reals
27%
Respostes amb al·lucinació
GPT-4 en tasques data-to-text
Fuente: Liu et al. 2023; Barnett et al. 2024; Wu et al. 2024 (RAGTruth)

Barnett et al. van catalogar set punts de fallada recurrents en portar un RAG a producció (Barnett et al., 2024): contingut absent, el document rellevant no entra al top‑k, es perd en consolidar el prompt, no s'extreu tot i ser present, format incorrecte, especificitat equivocada i resposta incompleta. I RAGTruth va mesurar que fins i tot amb recuperació, una fracció gens menyspreable de respostes al·lucina — fins al 27% en tasques de dades a text amb GPT‑4 (Wu et al., 2024).

L'arrel comuna

Gairebé totes aquestes fallades comparteixen una causa: la recuperació per similitud porta fragments semblants a la pregunta, però cecs entre si. Si la resposta exigeix connectar diverses peces (multi‑hop) o sintetitzar tot un corpus, la similitud vectorial no té com veure-ho (Tang & Yang, 2024).

A això s'hi suma la fragmentació pel troceig: partir documents en chunks de mida fixa talla un mateix fet entre dos fragments, i cap conté la resposta completa (Gao et al., 2023).

Tres maneres de recuperar (i per què importa l'estructura)

No totes les arquitectures de recuperació són iguals. Convé distingir tres paradigmes:

ParadigmaCom recuperaFort enPunt cec
RAG vectorialk veïns més propers per similitud d'embeddingsSignificat, sinònims, rapidesaMulti‑hop, relacions, síntesi global
Híbrid (BM25 + vector)Fusiona lèxic exacte + semàntic (p. ex. RRF)Termes exactes (codis, noms) + semànticaContinua sent rànquing de passatges inconnexos
RAG de grafTraça relacions explícites + difusió pel grafMulti‑hop, context relacional, sensemakingCost de construir el graf

L'híbrid arregla "els vectors no veuen el terme exacte"; no arregla "la recuperació ignora com es connecten els fets". Per a això cal estructura. I aquí és on el graf canvia les regles.

El graf com a context ambient

Modelem l'operació com un graf dirigit G=(V,E)G = (V, E) on els nodes VV són entitats —casos, documents, clients, tasques, agents— i les arestes EE són les relacions reals entre elles. Alguns nodes concentren moltíssimes connexions; els anomenem god nodes, i solen ser els punts pels quals passa tota l'operació.

Per mesurar la importància d'un node fem servir PageRank (Page et al., 1999), que la defineix de manera recursiva: un node és important si l'apunten nodes importants.

PR(v)=1dV+duB(v)PR(u)L(u)PR(v) = \frac{1 - d}{|V|} + d \sum_{u \in B(v)} \frac{PR(u)}{L(u)}

Quan un agent necessita context no llancem només una cerca per similitud: sembrem el graf amb els nodes més afins a la consulta i deixem que la rellevància es difongui als seus veïns a través de l'adjacència normalitzada A~\tilde{A}:

rt+1=(1α)s+αA~rt\mathbf{r}_{t+1} = (1 - \alpha)\,\mathbf{s} + \alpha\, \tilde{A}\,\mathbf{r}_{t}

Això no és una intuïció: és exactament el mecanisme que HippoRAG va demostrar per resoldre preguntes multi‑hop en un sol pas de recuperació, fent servir Personalized PageRank sobre un graf de coneixement (Gutiérrez et al., 2024). L'evidència és contundent.

Recall@5 a 2WikiMultiHopQA (preguntes multi-hop)
RAG vectorial dens (ColBERTv2)68
Graf + PageRank (HippoRAG)89

Recuperació densa vectorial (ColBERTv2) enfront de graf + Personalized PageRank, mateix lector. L'estructura recupera el doble d'evidència útil en preguntes que exigeixen encadenar fets.

Fuente: Gutiérrez et al., 2024 — HippoRAG (arXiv:2405.14831)

I per a les preguntes globals —"quins són els temes que travessen tota l'operació?"—, que no tenen un únic passatge‑resposta, Microsoft GraphRAG va mostrar que detectar comunitats al graf i resumir-les guanya de manera sistemàtica al RAG vectorial quan un jutge LLM avalua exhaustivitat i diversitat (Edge et al., 2024). Les comunitats s'obtenen optimitzant la modularitat —Louvain (Blondel et al., 2008) i el seu successor Leiden (Traag et al., 2019), que és el que fa servir GraphRAG:

Q=12mi,j(Aijkikj2m)δ(ci,cj)Q = \frac{1}{2m} \sum_{i,j} \left( A_{ij} - \frac{k_i k_j}{2m} \right) \delta(c_i, c_j)
72–83%
Victòries en exhaustivitat
graf vs RAG vectorial (jutge LLM)
fins a +20%
Millora en multi-hop
graf + PageRank vs SOTA
10–30×
Més barat
que el RAG iteratiu, en un sol pas
Fuente: Edge et al. 2024 (GraphRAG); Gutiérrez et al. 2024 (HippoRAG)

Honestedat intel·lectual

El graf no guanya sempre. En preguntes d'un sol salt, o quan es valora la concisió literal, el RAG vectorial és suficient — i fins i tot millor (Edge et al., 2024). Per això no substituïm el vector: el combinem amb el graf i amb un reranking de precisió. L'estructura es fa servir on aporta: relacions, multi‑hop i visió de conjunt.

Com es posiciona el panorama

L'ecosistema és excel·lent en el seu àmbit, però gairebé tot està construït al voltant del passatge, no de la relació:

EinaQuè ésMecanisme de recuperacióPunt cec relacional
PineconeBase vectorial gestionadaSimilitud vectorial (+ híbrid)Sense noció nativa de relacions
WeaviateBase vectorial (no de graf)Vector + BM25FCross‑refs desaconsellades per a travessia profunda
LangChainFramework d'orquestracióDelega en el backend que connectisNo aporta recuperació relacional pròpia
LlamaIndexFramework de dades per a RAGVector + PropertyGraphIndexEl graf depèn de l'extracció per LLM
Neo4jBase de dades de grafCypher + índex vectorialCal construir i modelar el graf abans
Microsoft GraphRAGPipeline de grafGraf + comunitats (Leiden)Indexat car i intensiu en LLM
Elastic / OpenSearchMotors de cercaBM25 + kNN (RRF)Sense travessia de relacions entre documents

La conclusió no és que aquestes eines siguin dolentes — són peces magnífiques. És que el graf de coneixement com a context ambient viu de l'operació no és el cas d'ús per al qual gairebé cap va ser dissenyada.

Com pensem ser els millors

No competim per tenir el millor índex vectorial: competim per entendre l'operació d'una empresa millor que ningú. Allà enfoquem l'avantatge, per àmbits:

L'enfocament habitual

Indexar text. El coneixement és un corpus de documents; el graf, quan existeix, s'extreu a posteriori amb un LLM i queda desactualitzat.

BiVelio

El graf és l'operació. Casos, tasques, clients i agents ja estan connectats per relacions reals i vives — no cal reconstruir-los amb un LLM.
  1. Context de l'operació, no només de documents. El nostre graf no neix de trocejar PDFs: neix de com funciona l'empresa. Això dona relacions precises i actualitzades, no inferides.
  2. Multi‑hop i visió de conjunt de sèrie. PageRank personalitzat per recuperar veïnats coherents (Gutiérrez et al., 2024) i comunitats per raonar a la granularitat correcta (Edge et al., 2024) — els dos modes que l'evidència premia.
  3. Context coherent, no fragments. Recuperem el cas més el seu client més les seves factures relacionades, no tres trossos que comparteixen una paraula. Ataquem directament el "perdut al mig" (Liu et al., 2023) lliurant menys context però més ben connectat.
  4. Precisió i cost. Combinem el graf amb un reranking efímer perquè només el millor arribi a la finestra de l'agent — la idea que desenvolupem a Reranking efímer.
  5. Governança i traçabilitat. Cada peça de context té origen al graf: es pot auditar d'on va sortir una decisió. En operacions d'empresa, això no és un extra, és un requisit.

Nota: les xifres d'aquest article provenen de la literatura citada (Liu et al., Edge et al., Gutiérrez et al., Barnett et al., Wu et al.) i descriuen enfocaments de graf en general. Són la motivació del nostre disseny, no un benchmark tancat de producte.

Referències

Barnett, S., Kurniawan, S., Thudumu, S., Brannelly, Z., & Abdelrazek, M. (2024). Seven Failure Points When Engineering a Retrieval Augmented Generation System. Proceedings of the IEEE/ACM 3rd International Conference on AI Engineering (CAIN). https://arxiv.org/abs/2401.05856
Blondel, V. D., Guillaume, J.-L., Lambiotte, R., & Lefebvre, E. (2008). Fast unfolding of communities in large networks. Journal of Statistical Mechanics: Theory and Experiment, 2008(10), P10008. https://doi.org/10.1088/1742-5468/2008/10/P10008
Edge, D., Trinh, H., Cheng, N., Bradley, J., Chao, A., Mody, A., Truitt, S., Metropolitansky, D., Ness, R. O., & Larson, J. (2024). From Local to Global: A Graph RAG Approach to Query-Focused Summarization. arXiv Preprint arXiv:2404.16130. https://arxiv.org/abs/2404.16130
Gao, Y., Xiong, Y., Gao, X., Jia, K., Pan, J., Bi, Y., Dai, Y., Sun, J., Wang, M., & Wang, H. (2023). Retrieval-Augmented Generation for Large Language Models: A Survey. arXiv Preprint arXiv:2312.10997. https://arxiv.org/abs/2312.10997
Gutiérrez, B. J., Shu, Y., Gu, Y., Yasunaga, M., & Su, Y. (2024). HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models. Advances in Neural Information Processing Systems (NeurIPS). https://arxiv.org/abs/2405.14831
Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W., Rocktäschel, T., Riedel, S., & Kiela, D. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems (NeurIPS), 33, 9459–9474.
Liu, N. F., Lin, K., Hewitt, J., Paranjape, A., Bevilacqua, M., Petroni, F., & Liang, P. (2023). Lost in the Middle: How Language Models Use Long Contexts. Transactions of the Association for Computational Linguistics (TACL). https://arxiv.org/abs/2307.03172
Page, L., Brin, S., Motwani, R., & Winograd, T. (1999). The PageRank Citation Ranking: Bringing Order to the Web (Techreport SIDL-WP-1999-0120). Stanford InfoLab. http://ilpubs.stanford.edu:8090/422/
Tang, Y., & Yang, Y. (2024). MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop Queries. Conference on Language Modeling (COLM). https://arxiv.org/abs/2401.15391
Traag, V. A., Waltman, L., & van Eck, N. J. (2019). From Louvain to Leiden: guaranteeing well-connected communities. Scientific Reports, 9, 5233. https://doi.org/10.1038/s41598-019-41695-z
Wu, Y., Zhu, J., Xu, S., Shum, K., Niu, C., Zhong, R., Song, J., & Zhang, T. (2024). RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (ACL). https://aclanthology.org/2024.acl-long.585/
  • #grafs
  • #knowledge graph
  • #graphrag
  • #agents
  • #pagerank
  • #rag

Vols veure aquests algorismes en producció?

BiVelio converteix aquesta research en un sistema operatiu d'IA que opera la teva empresa de punta a punta.