Bases de datos vectoriales | Dr. Falken's Notebook

📄️ Bases de datos vectoriales

Las bases de datos vectoriales almacenan y permiten buscar vectores (embeddings) por similitud semántica. Son el componente de almacenamiento central en sistemas RAG, búsqueda semántica y recomendaciones.

📄️ ChromaDB

La opción más sencilla para prototipos y proyectos pequeños. Cero configuración, API intuitiva, rendimiento suficiente para millones de embeddings en un servidor modesto.

📄️ FAISS

Librería de búsqueda de similitud de alta performance desarrollada por Meta, usada en producción a escala de miles de millones de vectores. No es una base de datos completa: no tiene persistencia nativa, APIs web ni gestión de metadatos.

📄️ Qdrant

Base de datos vectorial open source de alto rendimiento, escrita en Rust. Referencia para despliegues en producción autoalojados. Recibió 50M$ de inversión en marzo de 2026.

📄️ Weaviate

Base de datos vectorial que almacena tanto objetos como sus vectores de forma nativa. Destaca por la búsqueda híbrida y las integraciones directas con modelos de embeddings.

📄️ Milvus

Sistema distribuido de búsqueda vectorial diseñado para escala masiva. La versión 2.6 añade funciones de usuario (UDF), sharding dinámico y una capa de Vector Lake. La versión 3.0 (prevista para finales de 2026) incorporará soporte nativo para datos multimodales (ColBERT, vídeo, geo) y tipos de datos unificados.

📄️ pgvector

Extensión de PostgreSQL que añade tipos de datos vectoriales e índices HNSW e IVFFlat. Permite hacer búsqueda semántica directamente en una base de datos PostgreSQL existente, sin infraestructura adicional.

📄️ Pinecone

Base de datos vectorial como servicio gestionado (serverless). Escala automáticamente, incluyendo a cero cuando no hay tráfico. Latencia sub-100ms en datasets de miles de millones de vectores sin necesidad de gestión de infraestructura.