Saltar al contenido principal

Casos de uso

Asistente de código offline

ollama run qwen2.5-coder:14b

Embeddings para RAG local

ollama pull nomic-embed-text
import ollama

result = ollama.embeddings(model="nomic-embed-text", prompt="texto a vectorizar")
vector = result["embedding"]

Integración con herramientas de agentes

Ollama es compatible con herramientas como LangChain, LlamaIndex, Open WebUI o Codex CLI, que pueden apuntar a http://localhost:11434 como proveedor de modelos.

Consejos

  • Empieza con modelos de 7B si tienes 8–16 GB de RAM; son suficientemente capaces para la mayoría de tareas.
  • Usa OLLAMA_KEEP_ALIVE=0 si quieres que el modelo se descargue de memoria inmediatamente tras cada petición y así liberar RAM.
  • Para velocidades de generación aceptables sin GPU, un procesador moderno con 8 núcleos genera entre 5 y 15 tokens/segundo con un modelo de 7B.
  • Los modelos cuantizados a Q4 son el mejor equilibrio entre tamaño, velocidad y calidad para uso en local.

Ver el experimento: Embeddings locales con nomic-embed-text

Referencias