Saltar al contenido principal

Configuración

Variables de entorno

VariableDescripciónValor por defecto
OLLAMA_MODELSDirectorio donde se guardan los modelos~/.ollama/models
OLLAMA_HOSTDirección y puerto en que escucha la API127.0.0.1:11434
OLLAMA_ORIGINSOrígenes CORS permitidoslocalhost
OLLAMA_NUM_PARALLELPeticiones simultáneas al modelo1
OLLAMA_MAX_LOADED_MODELSModelos cargados en memoria a la vez1
OLLAMA_KEEP_ALIVETiempo que el modelo permanece en memoria tras la última petición5m
OLLAMA_FLASH_ATTENTIONActiva Flash Attention (más rápido con GPU compatible)0

Exponer la API en red local

Por defecto, Ollama solo escucha en localhost. Para acceder desde otros dispositivos de la red:

OLLAMA_HOST=0.0.0.0:11434 ollama serve

En Linux con systemd, edita el servicio:

sudo systemctl edit ollama
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
sudo systemctl daemon-reload && sudo systemctl restart ollama

Modelfile: personalizar un modelo

Un Modelfile es el equivalente a un Dockerfile pero para modelos. Permite crear variantes personalizadas de cualquier modelo con un system prompt fijo, parámetros distintos o incluso pesos propios.

Ejemplo de Modelfile:

FROM llama3.2

SYSTEM """
Eres un asistente técnico especializado en Python y FastAPI.
Responde siempre en español.
Sé conciso: da la respuesta directa antes de cualquier explicación.
Si no sabes algo, dilo claramente.
"""

PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

Crear el modelo personalizado:

ollama create mi-asistente-python -f Modelfile
ollama run mi-asistente-python

Parámetros disponibles en un Modelfile:

ParámetroDescripción
temperatureCreatividad de las respuestas (0–1)
top_pNucleus sampling
top_kLimita el vocabulario de selección
num_ctxTamaño de la ventana de contexto en tokens
num_predictMáximo de tokens a generar
stopSecuencias que detienen la generación

Ver el experimento: Crear un asistente personalizado con Modelfile

Referencias