Saltar al contenido principal

Bases de datos vectoriales

Las bases de datos vectoriales almacenan y permiten buscar vectores (embeddings) por similitud semántica. Son el componente de almacenamiento central en sistemas RAG, búsqueda semántica y recomendaciones.

A diferencia de una base de datos relacional (que busca coincidencias exactas), una base de datos vectorial busca los vectores más cercanos al vector de consulta según una métrica de distancia (coseno, euclidiana...).

Comparativa

Base de datosTipoEscalaBúsqueda híbridaDestacado
ChromaDBOpen sourceMillonesPrototipado rápido
FAISSLibreríaMiles de millonesNoVelocidad máxima
QdrantOpen sourceCientos de millonesProducción autoalojada
WeaviateOpen source / CloudCientos de millonesVectorización automática
MilvusOpen sourceMiles de millonesEscala distribuida
pgvectorExtensión PostgreSQLDecenas de millonesParcialIntegración PostgreSQL
PineconeSaaS gestionadoMiles de millonesZero-ops, cloud
tip

La elección de la base de datos vectorial representa solo el 5–10% de la calidad de un sistema RAG. La estrategia de chunking, el modelo de embeddings y el pipeline de recuperación tienen mucho más impacto.

Referencias