¿Cuáles son los comandos más populares en Ollama?

Los comandos más populares en Ollama son: ollama list, ollama pull, ollama rm y ollama run.

Guía rápida de Ollama - comandos más útiles - actualización de 2026

Compilé esta lista de comandos de Ollama hace algún tiempo...

Índice

Aquí está la lista y ejemplos de los comandos más útiles de Ollama (cheat sheet de comandos de Ollama) La compilé hace algún tiempo, actualizado por última vez en enero de 2026. Espero que también sea útil para usted.

cheat sheet de Ollama

Este cheat sheet de Ollama se centra en comandos de CLI, gestión de modelos y personalización, pero aquí también tenemos algunos curl llamadas.

Si estás comparando diferentes soluciones de alojamiento de LLM locales, echa un vistazo a nuestra comparación completa de Ollama, vLLM, LocalAI, Jan, LM Studio y más. Para aquellos que buscan alternativas a interfaces de línea de comandos, Docker Model Runner ofrece un enfoque diferente al despliegue de LLM.

Instalación

Opción 1: Descargar desde el sitio web
- Visita ollama.com y descarga el instalador para tu sistema operativo (Mac, Linux o Windows).
Opción 2: Instalar desde la línea de comandos
- Para usuarios de Mac y Linux, usa el siguiente comando:

curl https://ollama.ai/install.sh | sh

Sigue las instrucciones en pantalla y introduce tu contraseña si se te solicita.

Requisitos del sistema

Sistema operativo: Mac o Linux (versión para Windows en desarrollo)
Memoria (RAM): Mínimo 8 GB, se recomienda 16 GB o más
Almacenamiento: Al menos ~10 GB de espacio libre (los archivos de modelos pueden ser muy grandes, consulta más información aquí Mover modelos de Ollama a otro disco duro)
Procesador: Un CPU relativamente moderno (de los últimos 5 años). Si te preguntas cómo Ollama utiliza diferentes arquitecturas de CPU, consulta nuestro análisis de cómo Ollama utiliza el rendimiento y los núcleos eficientes de la CPU de Intel.

Para cargas de trabajo de IA serias, podrías querer comparar opciones de hardware. Hemos realizado pruebas con NVIDIA DGX Spark vs Mac Studio vs RTX-4080 con Ollama, y si estás considerando invertir en hardware de alto rendimiento, nuestra comparación de precios y capacidades de DGX Spark proporciona un análisis detallado de costos.

Comandos básicos de CLI de Ollama

Comando	Descripción
`ollama serve`	Inicia Ollama en tu sistema local.
`ollama create <new_model>`	Crea un nuevo modelo a partir de uno existente para personalización o entrenamiento.
`ollama show <model>`	Muestra detalles sobre un modelo específico, como su configuración y fecha de lanzamiento.
`ollama run <model>`	Ejecuta el modelo especificado, preparándolo para la interacción.
`ollama pull <model>`	Descarga el modelo especificado a tu sistema.
`ollama list`	Lista todos los modelos descargados. El mismo que `ollama ls`
`ollama ps`	Muestra los modelos que se están ejecutando actualmente.
`ollama stop <model>`	Detiene el modelo especificado que se está ejecutando.
`ollama rm <model>`	Elimina el modelo especificado de tu sistema.
`ollama help`	Proporciona ayuda sobre cualquier comando.

Gestión de modelos

Descargar un modelo:
```
ollama pull mistral-nemo:12b-instruct-2407-q6_K
```
Este comando descarga el modelo especificado (por ejemplo, Gemma 2B o mistral-nemo:12b-instruct-2407-q6_K) a tu sistema. Los archivos del modelo pueden ser bastante grandes, así que mantén un ojo en el espacio utilizado por los modelos en el disco duro, o en el SSD. Incluso podrías querer mover todos los modelos de Ollama de tu directorio de inicio a otro disco más grande y mejor
Ejecutar un modelo:
```
ollama run qwen2.5:32b-instruct-q3_K_S
```
Este comando inicia el modelo especificado y abre un REPL interactivo para la interacción. ¿Quieres entender cómo Ollama gestiona múltiples solicitudes concurrentes? Aprende más sobre cómo Ollama maneja solicitudes paralelas en nuestro análisis detallado.

Listar modelos:

ollama list

lo mismo que:

ollama ls

Este comando lista todos los modelos que han sido descargados a tu sistema, como

$ ollama ls
NOMBRE                                                    ID              TAMAÑO      MODIFICADO     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 semanas atrás     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 semanas atrás     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 semanas atrás     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 semanas atrás     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 semanas atrás     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 semanas atrás     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 semanas atrás     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 semanas atrás     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 semanas atrás

Detener un modelo:
```
ollama stop llama3.1:8b-instruct-q8_0
```
Este comando detiene el modelo especificado que se está ejecutando.

Liberar modelos de la VRAM

Cuando un modelo se carga en la VRAM (memoria de la GPU), permanece allí incluso después de que termines de usarlo. Para liberar explícitamente un modelo de la VRAM y liberar memoria de la GPU, puedes enviar una solicitud al API de Ollama con keep_alive: 0.

Liberar modelo de la VRAM usando curl:

curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Reemplaza MODELNAME con el nombre real de tu modelo, por ejemplo:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'

Liberar modelo de la VRAM usando Python:

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Esto es especialmente útil cuando:

Necesitas liberar la memoria de la GPU para otras aplicaciones
Estás ejecutando múltiples modelos y quieres gestionar el uso de VRAM
Has terminado de usar un modelo grande y quieres liberar los recursos inmediatamente

Nota: El parámetro keep_alive controla cuánto tiempo (en segundos) un modelo permanece cargado en la memoria después de la última solicitud. Establecerlo en 0 descarga inmediatamente el modelo de la VRAM.

Personalización de modelos

Establecer un prompt del sistema: Dentro del REPL de Ollama, puedes establecer un prompt del sistema para personalizar el comportamiento del modelo:
```
>>> /set system Para todas las preguntas respondas en inglés plano evitando el jerga técnica tanto como sea posible
>>> /save ipe
>>> /bye
```
Luego, ejecuta el modelo personalizado:
```
ollama run ipe
```
Esto establece un prompt del sistema y guarda el modelo para su uso futuro.
Crear un archivo de modelo personalizado: Crea un archivo de texto (por ejemplo, custom_model.txt) con la siguiente estructura:
```
FROM llama3.1
SYSTEM [Tus instrucciones personalizadas aquí]
```
Luego, ejecuta:
```
ollama create mymodel -f custom_model.txt
ollama run mymodel
```
Esto crea un modelo personalizado basado en las instrucciones del archivo.

Usar Ollama con archivos

Resumir texto de un archivo:
```
ollama run llama3.2 "Resuma el contenido de este archivo en 50 palabras." < input.txt
```
Este comando resumirá el contenido de input.txt usando el modelo especificado.
Grabar las respuestas del modelo en un archivo:
```
ollama run llama3.2 "Cuéntame sobre las energías renovables." > output.txt
```
Este comando guarda la respuesta del modelo en output.txt.

Casos de uso comunes

Generación de texto:

Resumir un archivo de texto grande:

ollama run llama3.2 "Resuma el siguiente texto:" < long-document.txt

Generar contenido:

ollama run llama3.2 "Escribe un artículo breve sobre los beneficios del uso de la IA en la salud." > article.txt

Contestar preguntas específicas:

ollama run llama3.2 "¿Cuáles son las últimas tendencias en IA y cómo afectarán la salud?"

Procesamiento y análisis de datos:
- Clasificar texto en positivo, negativo o neutro:
```
ollama run llama3.2 "Analiza el sentimiento de esta reseña del cliente: 'El producto es fantástico, pero el envío fue lento.'"
```
- Categorizar texto en categorías predefinidas: Usa comandos similares para clasificar o categorizar texto según criterios predefinidos.

Usar Ollama con Python

Instalar la biblioteca de Python de Ollama:
```
pip install ollama
```

Generar texto usando Python:

import ollama

response = ollama.generate(model='gemma:2b', prompt='¿qué es un qubit?')
print(response['response'])

Este fragmento de código genera texto usando el modelo y el prompt especificado.

Para una integración avanzada con Python, explora usar la API de búsqueda web nativa de Ollama en Python, que cubre capacidades de búsqueda web, llamadas de herramientas y integración con servidores MCP. Si estás construyendo aplicaciones con IA, nuestra comparación de asistentes de codificación de IA puede ayudarte a elegir las herramientas adecuadas para el desarrollo.

¿Buscas una interfaz basada en web? Open WebUI proporciona una interfaz autogestionada con capacidades de RAG y soporte para múltiples usuarios. Para despliegues de producción de alto rendimiento, considera vLLM como alternativa.

Guía rápida de Ollama - comandos más útiles - actualización de 2026

Instalación

Requisitos del sistema

Comandos básicos de CLI de Ollama

Gestión de modelos

Liberar modelos de la VRAM

Personalización de modelos

Usar Ollama con archivos

Casos de uso comunes

Usar Ollama con Python

Enlaces útiles

Alternativas y comparaciones

Rendimiento y hardware

Integración y desarrollo

Configuración y gestión