Volver a Research
Agentes

El grafo de conocimiento como contexto ambiente de los agentes

Un agente sin contexto es solo un modelo. La recuperación vectorial clásica trata el conocimiento como una bolsa de fragmentos independientes — y por eso falla en las preguntas que más importan a una empresa. Repasamos los problemas reales que viven los desarrolladores de RAG (con datos), por qué la estructura de grafo gana donde el vector se queda corto, cómo se posiciona el panorama (Pinecone, LangChain, LlamaIndex, Neo4j, Microsoft GraphRAG) y cómo pensamos ser los mejores en el contexto que de verdad cuenta: la operación de una empresa.

BiVelio Research8 min de lectura
Red de conocimiento con nodos luminosos interconectados (god nodes) y pulsos de datos sobre fondo oscuro

La promesa del RAG (generación aumentada por recuperación) es simple: dale al modelo los documentos correctos y responderá bien (Lewis et al., 2020). La realidad de quien lo lleva a producción es más áspera. El conocimiento de una empresa no es una pila de textos sueltos: es una red de casos, clientes, facturas, tareas y agentes conectados entre sí. Aplanar eso a fragmentos independientes pierde justo lo que da sentido — y los números lo confirman.

Este artículo es nuestra tesis técnica: por qué tratamos el conocimiento como un grafo y lo usamos como contexto ambiente de los agentes, no como una bolsa de fragmentos.

El problema que viven los desarrolladores

Cualquiera que haya construido un RAG real ha chocado con la misma pared: añadir más contexto no mejora la respuesta, a veces la empeora. No es una anécdota, está medido. Liu et al. mostraron que los modelos usan bien la información al principio y al final del contexto, pero la pierden cuando cae en el medio (Liu et al., 2023).

Precisión de QA según dónde cae el dato relevante (GPT-3.5, 20 documentos)
Dato al inicio del contexto75.8%
Dato en el medio del contexto53.8%

Mismo dato, misma pregunta: solo cambia la posición del documento relevante dentro del contexto. La caída al medio supera los 20 puntos.

Fuente: Liu et al., 2023 — Lost in the Middle (arXiv:2307.03172)

Con 30 documentos el efecto es tan severo que poner el dato en el medio (50,5%) rinde por debajo de responder sin documento alguno (56,1%): el contexto mal ordenado resta (Liu et al., 2023). Y esto es solo un fallo de los varios que documenta la literatura.

−22 pp
Caída de precisión
dato relevante "perdido en el medio"
7
Puntos de fallo del RAG
documentados en sistemas reales
27%
Respuestas con alucinación
GPT-4 en tareas data-to-text
Fuente: Liu et al. 2023; Barnett et al. 2024; Wu et al. 2024 (RAGTruth)

Barnett et al. catalogaron siete puntos de fallo recurrentes al llevar un RAG a producción (Barnett et al., 2024): contenido ausente, el documento relevante no entra en el top‑k, se pierde al consolidar el prompt, no se extrae pese a estar presente, formato incorrecto, especificidad equivocada y respuesta incompleta. Y RAGTruth midió que incluso con recuperación, una fracción nada despreciable de respuestas alucina — hasta el 27% en tareas de datos a texto con GPT‑4 (Wu et al., 2024).

La raíz común

Casi todos estos fallos comparten una causa: la recuperación por similitud trae fragmentos parecidos a la pregunta, pero ciegos entre sí. Si la respuesta exige conectar varias piezas (multi‑hop) o sintetizar todo un corpus, la similitud vectorial no tiene cómo verlo (Tang & Yang, 2024).

A esto se suma la fragmentación por troceado: partir documentos en chunks de tamaño fijo corta un mismo hecho entre dos fragmentos, y ninguno contiene la respuesta completa (Gao et al., 2023).

Tres formas de recuperar (y por qué importa la estructura)

No todas las arquitecturas de recuperación son iguales. Conviene distinguir tres paradigmas:

ParadigmaCómo recuperaFuerte enPunto ciego
RAG vectorialk vecinos más cercanos por similitud de embeddingsSignificado, sinónimos, rapidezMulti‑hop, relaciones, síntesis global
Híbrido (BM25 + vector)Fusiona léxico exacto + semántico (p. ej. RRF)Términos exactos (códigos, nombres) + semánticaSigue siendo ranking de pasajes inconexos
RAG de grafoTraza relaciones explícitas + difusión sobre el grafoMulti‑hop, contexto relacional, sensemakingCoste de construir el grafo

El híbrido arregla "los vectores no ven el término exacto"; no arregla "la recuperación ignora cómo se conectan los hechos". Para eso hace falta estructura. Y aquí es donde el grafo cambia las reglas.

El grafo como contexto ambiente

Modelamos la operación como un grafo dirigido G=(V,E)G = (V, E) donde los nodos VV son entidades —casos, documentos, clientes, tareas, agentes— y las aristas EE son las relaciones reales entre ellas. Algunos nodos concentran muchísimas conexiones; los llamamos god nodes, y suelen ser los puntos por los que pasa toda la operación.

Para medir la importancia de un nodo usamos PageRank (Page et al., 1999), que la define de forma recursiva: un nodo es importante si lo apuntan nodos importantes.

PR(v)=1dV+duB(v)PR(u)L(u)PR(v) = \frac{1 - d}{|V|} + d \sum_{u \in B(v)} \frac{PR(u)}{L(u)}

Cuando un agente necesita contexto no lanzamos solo una búsqueda por similitud: sembramos el grafo con los nodos más afines a la consulta y dejamos que la relevancia se difunda a sus vecinos a través de la adyacencia normalizada A~\tilde{A}:

rt+1=(1α)s+αA~rt\mathbf{r}_{t+1} = (1 - \alpha)\,\mathbf{s} + \alpha\, \tilde{A}\,\mathbf{r}_{t}

Esto no es una corazonada: es exactamente el mecanismo que HippoRAG demostró para resolver preguntas multi‑hop en un solo paso de recuperación, usando Personalized PageRank sobre un grafo de conocimiento (Gutiérrez et al., 2024). La evidencia es contundente.

Recall@5 en 2WikiMultiHopQA (preguntas multi-hop)
RAG vectorial denso (ColBERTv2)68
Grafo + PageRank (HippoRAG)89

Recuperación densa vectorial (ColBERTv2) frente a grafo + Personalized PageRank, mismo lector. La estructura recupera el doble de evidencia útil en preguntas que exigen encadenar hechos.

Fuente: Gutiérrez et al., 2024 — HippoRAG (arXiv:2405.14831)

Y para las preguntas globales —"¿cuáles son los temas que atraviesan toda la operación?"—, que no tienen un único pasaje‑respuesta, Microsoft GraphRAG mostró que detectar comunidades en el grafo y resumirlas gana de forma sistemática al RAG vectorial cuando un juez LLM evalúa exhaustividad y diversidad (Edge et al., 2024). Las comunidades se obtienen optimizando la modularidad —Louvain (Blondel et al., 2008) y su sucesor Leiden (Traag et al., 2019), que es el que usa GraphRAG:

Q=12mi,j(Aijkikj2m)δ(ci,cj)Q = \frac{1}{2m} \sum_{i,j} \left( A_{ij} - \frac{k_i k_j}{2m} \right) \delta(c_i, c_j)
72–83%
Victorias en exhaustividad
grafo vs RAG vectorial (juez LLM)
hasta +20%
Mejora en multi-hop
grafo + PageRank vs SOTA
10–30×
Más barato
que el RAG iterativo, en un solo paso
Fuente: Edge et al. 2024 (GraphRAG); Gutiérrez et al. 2024 (HippoRAG)

Honestidad intelectual

El grafo no gana siempre. En preguntas de un solo salto, o cuando se valora la concisión literal, el RAG vectorial es suficiente — e incluso mejor (Edge et al., 2024). Por eso no sustituimos el vector: lo combinamos con el grafo y con un reranking de precisión. La estructura se usa donde aporta: relaciones, multi‑hop y visión de conjunto.

Cómo se posiciona el panorama

El ecosistema es excelente en lo suyo, pero casi todo está construido alrededor del pasaje, no de la relación:

HerramientaQué esMecanismo de recuperaciónPunto ciego relacional
PineconeBase vectorial gestionadaSimilitud vectorial (+ híbrido)Sin noción nativa de relaciones
WeaviateBase vectorial (no de grafo)Vector + BM25FCross‑refs desaconsejadas para travesía profunda
LangChainFramework de orquestaciónDelega en el backend que conectesNo aporta recuperación relacional propia
LlamaIndexFramework de datos para RAGVector + PropertyGraphIndexEl grafo depende de la extracción por LLM
Neo4jBase de datos de grafoCypher + índice vectorialHay que construir y modelar el grafo antes
Microsoft GraphRAGPipeline de grafoGrafo + comunidades (Leiden)Indexado caro e intensivo en LLM
Elastic / OpenSearchMotores de búsquedaBM25 + kNN (RRF)Sin travesía de relaciones entre documentos

La conclusión no es que estas herramientas sean malas — son piezas magníficas. Es que el grafo de conocimiento como contexto ambiente vivo de la operación no es el caso de uso para el que casi ninguna fue diseñada.

Cómo pensamos ser los mejores

No competimos por tener el mejor índice vectorial: competimos por entender la operación de una empresa mejor que nadie. Ahí enfocamos la ventaja, por ámbitos:

El enfoque habitual

Indexar texto. El conocimiento es un corpus de documentos; el grafo, cuando existe, se extrae a posteriori con un LLM y queda desactualizado.

BiVelio

El grafo es la operación. Casos, tareas, clientes y agentes ya están conectados por relaciones reales y vivas — no hay que reconstruirlos con un LLM.
  1. Contexto de la operación, no solo de documentos. Nuestro grafo no nace de trocear PDFs: nace de cómo funciona la empresa. Eso da relaciones precisas y actualizadas, no inferidas.
  2. Multi‑hop y visión de conjunto de serie. PageRank personalizado para recuperar vecindades coherentes (Gutiérrez et al., 2024) y comunidades para razonar a la granularidad correcta (Edge et al., 2024) — los dos modos que la evidencia premia.
  3. Contexto coherente, no fragmentos. Recuperamos el caso más su cliente más sus facturas relacionadas, no tres trozos que comparten una palabra. Atacamos directamente el "perdido en el medio" (Liu et al., 2023) entregando menos contexto pero mejor conectado.
  4. Precisión y coste. Combinamos el grafo con un reranking efímero para que solo lo mejor llegue a la ventana del agente — la idea que desarrollamos en Reranking efímero.
  5. Gobernanza y trazabilidad. Cada pieza de contexto tiene origen en el grafo: se puede auditar de dónde salió una decisión. En operaciones de empresa, eso no es un extra, es un requisito.

Nota: las cifras de este artículo provienen de la literatura citada (Liu et al., Edge et al., Gutiérrez et al., Barnett et al., Wu et al.) y describen enfoques de grafo en general. Son la motivación de nuestro diseño, no un benchmark cerrado de producto.

Referencias

Barnett, S., Kurniawan, S., Thudumu, S., Brannelly, Z., & Abdelrazek, M. (2024). Seven Failure Points When Engineering a Retrieval Augmented Generation System. Proceedings of the IEEE/ACM 3rd International Conference on AI Engineering (CAIN). https://arxiv.org/abs/2401.05856
Blondel, V. D., Guillaume, J.-L., Lambiotte, R., & Lefebvre, E. (2008). Fast unfolding of communities in large networks. Journal of Statistical Mechanics: Theory and Experiment, 2008(10), P10008. https://doi.org/10.1088/1742-5468/2008/10/P10008
Edge, D., Trinh, H., Cheng, N., Bradley, J., Chao, A., Mody, A., Truitt, S., Metropolitansky, D., Ness, R. O., & Larson, J. (2024). From Local to Global: A Graph RAG Approach to Query-Focused Summarization. arXiv Preprint arXiv:2404.16130. https://arxiv.org/abs/2404.16130
Gao, Y., Xiong, Y., Gao, X., Jia, K., Pan, J., Bi, Y., Dai, Y., Sun, J., Wang, M., & Wang, H. (2023). Retrieval-Augmented Generation for Large Language Models: A Survey. arXiv Preprint arXiv:2312.10997. https://arxiv.org/abs/2312.10997
Gutiérrez, B. J., Shu, Y., Gu, Y., Yasunaga, M., & Su, Y. (2024). HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models. Advances in Neural Information Processing Systems (NeurIPS). https://arxiv.org/abs/2405.14831
Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W., Rocktäschel, T., Riedel, S., & Kiela, D. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems (NeurIPS), 33, 9459–9474.
Liu, N. F., Lin, K., Hewitt, J., Paranjape, A., Bevilacqua, M., Petroni, F., & Liang, P. (2023). Lost in the Middle: How Language Models Use Long Contexts. Transactions of the Association for Computational Linguistics (TACL). https://arxiv.org/abs/2307.03172
Page, L., Brin, S., Motwani, R., & Winograd, T. (1999). The PageRank Citation Ranking: Bringing Order to the Web (Techreport SIDL-WP-1999-0120). Stanford InfoLab. http://ilpubs.stanford.edu:8090/422/
Tang, Y., & Yang, Y. (2024). MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop Queries. Conference on Language Modeling (COLM). https://arxiv.org/abs/2401.15391
Traag, V. A., Waltman, L., & van Eck, N. J. (2019). From Louvain to Leiden: guaranteeing well-connected communities. Scientific Reports, 9, 5233. https://doi.org/10.1038/s41598-019-41695-z
Wu, Y., Zhu, J., Xu, S., Shum, K., Niu, C., Zhong, R., Song, J., & Zhang, T. (2024). RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (ACL). https://aclanthology.org/2024.acl-long.585/
  • #grafos
  • #knowledge graph
  • #graphrag
  • #agentes
  • #pagerank
  • #rag

¿Quieres ver estos algoritmos en producción?

BiVelio convierte esta research en un sistema operativo de IA que opera tu empresa de punta a punta.