Casos de uso

Asistente de código offline

ollama run qwen2.5-coder:14b

Embeddings para RAG local

ollama pull nomic-embed-text

import ollama

result = ollama.embeddings(model="nomic-embed-text", prompt="texto a vectorizar")
vector = result["embedding"]

Integración con herramientas de agentes

Ollama es compatible con herramientas como LangChain, LlamaIndex, Open WebUI o Codex CLI, que pueden apuntar a http://localhost:11434 como proveedor de modelos.

Consejos

Empieza con modelos de 7B si tienes 8–16 GB de RAM; son suficientemente capaces para la mayoría de tareas.
Usa OLLAMA_KEEP_ALIVE=0 si quieres que el modelo se descargue de memoria inmediatamente tras cada petición y así liberar RAM.
Para velocidades de generación aceptables sin GPU, un procesador moderno con 8 núcleos genera entre 5 y 15 tokens/segundo con un modelo de 7B.
Los modelos cuantizados a Q4 son el mejor equilibrio entre tamaño, velocidad y calidad para uso en local.

Ver el experimento: Embeddings locales con nomic-embed-text

Asistente de código offline​

Embeddings para RAG local​

Integración con herramientas de agentes​

Consejos​

Referencias​

Asistente de código offline

Embeddings para RAG local

Integración con herramientas de agentes

Consejos

Referencias