Guía rápida de Ollama - comandos más útiles - actualización de 2026
Compilé esta lista de comandos de Ollama hace algún tiempo...
Aquí está la lista y ejemplos de los comandos más útiles de Ollama (cheat sheet de comandos de Ollama) La compilé hace algún tiempo, actualizado por última vez en enero de 2026. Espero que también sea útil para usted.

Este cheat sheet de Ollama se centra en comandos de CLI, gestión de modelos y personalización, pero aquí también tenemos algunos curl llamadas.
Si estás comparando diferentes soluciones de alojamiento de LLM locales, echa un vistazo a nuestra comparación completa de Ollama, vLLM, LocalAI, Jan, LM Studio y más. Para aquellos que buscan alternativas a interfaces de línea de comandos, Docker Model Runner ofrece un enfoque diferente al despliegue de LLM.
Instalación
- Opción 1: Descargar desde el sitio web
- Visita ollama.com y descarga el instalador para tu sistema operativo (Mac, Linux o Windows).
- Opción 2: Instalar desde la línea de comandos
- Para usuarios de Mac y Linux, usa el siguiente comando:
curl https://ollama.ai/install.sh | sh
- Sigue las instrucciones en pantalla y introduce tu contraseña si se te solicita.
Requisitos del sistema
- Sistema operativo: Mac o Linux (versión para Windows en desarrollo)
- Memoria (RAM): Mínimo 8 GB, se recomienda 16 GB o más
- Almacenamiento: Al menos ~10 GB de espacio libre (los archivos de modelos pueden ser muy grandes, consulta más información aquí Mover modelos de Ollama a otro disco duro)
- Procesador: Un CPU relativamente moderno (de los últimos 5 años). Si te preguntas cómo Ollama utiliza diferentes arquitecturas de CPU, consulta nuestro análisis de cómo Ollama utiliza el rendimiento y los núcleos eficientes de la CPU de Intel.
Para cargas de trabajo de IA serias, podrías querer comparar opciones de hardware. Hemos realizado pruebas con NVIDIA DGX Spark vs Mac Studio vs RTX-4080 con Ollama, y si estás considerando invertir en hardware de alto rendimiento, nuestra comparación de precios y capacidades de DGX Spark proporciona un análisis detallado de costos.
Comandos básicos de CLI de Ollama
| Comando | Descripción |
|---|---|
ollama serve |
Inicia Ollama en tu sistema local. |
ollama create <new_model> |
Crea un nuevo modelo a partir de uno existente para personalización o entrenamiento. |
ollama show <model> |
Muestra detalles sobre un modelo específico, como su configuración y fecha de lanzamiento. |
ollama run <model> |
Ejecuta el modelo especificado, preparándolo para la interacción. |
ollama pull <model> |
Descarga el modelo especificado a tu sistema. |
ollama list |
Lista todos los modelos descargados. El mismo que ollama ls |
ollama ps |
Muestra los modelos que se están ejecutando actualmente. |
ollama stop <model> |
Detiene el modelo especificado que se está ejecutando. |
ollama rm <model> |
Elimina el modelo especificado de tu sistema. |
ollama help |
Proporciona ayuda sobre cualquier comando. |
Gestión de modelos
-
Descargar un modelo:
ollama pull mistral-nemo:12b-instruct-2407-q6_KEste comando descarga el modelo especificado (por ejemplo, Gemma 2B o mistral-nemo:12b-instruct-2407-q6_K) a tu sistema. Los archivos del modelo pueden ser bastante grandes, así que mantén un ojo en el espacio utilizado por los modelos en el disco duro, o en el SSD. Incluso podrías querer mover todos los modelos de Ollama de tu directorio de inicio a otro disco más grande y mejor
-
Ejecutar un modelo:
ollama run qwen2.5:32b-instruct-q3_K_SEste comando inicia el modelo especificado y abre un REPL interactivo para la interacción. ¿Quieres entender cómo Ollama gestiona múltiples solicitudes concurrentes? Aprende más sobre cómo Ollama maneja solicitudes paralelas en nuestro análisis detallado.
-
Listar modelos:
ollama listlo mismo que:
ollama lsEste comando lista todos los modelos que han sido descargados a tu sistema, como
$ ollama ls NOMBRE ID TAMAÑO MODIFICADO deepseek-r1:8b 6995872bfe4c 5.2 GB 2 semanas atrás gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 semanas atrás LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 semanas atrás dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 semanas atrás dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 semanas atrás qwen3:8b 500a1f067a9f 5.2 GB 5 semanas atrás qwen3:14b bdbd181c33f2 9.3 GB 5 semanas atrás qwen3:30b-a3b 0b28110b7a33 18 GB 5 semanas atrás devstral:24b c4b2fa0c33d7 14 GB 5 semanas atrás -
Detener un modelo:
ollama stop llama3.1:8b-instruct-q8_0Este comando detiene el modelo especificado que se está ejecutando.
Liberar modelos de la VRAM
Cuando un modelo se carga en la VRAM (memoria de la GPU), permanece allí incluso después de que termines de usarlo. Para liberar explícitamente un modelo de la VRAM y liberar memoria de la GPU, puedes enviar una solicitud al API de Ollama con keep_alive: 0.
- Liberar modelo de la VRAM usando curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Reemplaza MODELNAME con el nombre real de tu modelo, por ejemplo:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Liberar modelo de la VRAM usando Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Esto es especialmente útil cuando:
- Necesitas liberar la memoria de la GPU para otras aplicaciones
- Estás ejecutando múltiples modelos y quieres gestionar el uso de VRAM
- Has terminado de usar un modelo grande y quieres liberar los recursos inmediatamente
Nota: El parámetro keep_alive controla cuánto tiempo (en segundos) un modelo permanece cargado en la memoria después de la última solicitud. Establecerlo en 0 descarga inmediatamente el modelo de la VRAM.
Personalización de modelos
-
Establecer un prompt del sistema: Dentro del REPL de Ollama, puedes establecer un prompt del sistema para personalizar el comportamiento del modelo:
>>> /set system Para todas las preguntas respondas en inglés plano evitando el jerga técnica tanto como sea posible >>> /save ipe >>> /byeLuego, ejecuta el modelo personalizado:
ollama run ipeEsto establece un prompt del sistema y guarda el modelo para su uso futuro.
-
Crear un archivo de modelo personalizado: Crea un archivo de texto (por ejemplo,
custom_model.txt) con la siguiente estructura:FROM llama3.1 SYSTEM [Tus instrucciones personalizadas aquí]Luego, ejecuta:
ollama create mymodel -f custom_model.txt ollama run mymodelEsto crea un modelo personalizado basado en las instrucciones del archivo.
Usar Ollama con archivos
-
Resumir texto de un archivo:
ollama run llama3.2 "Resuma el contenido de este archivo en 50 palabras." < input.txtEste comando resumirá el contenido de
input.txtusando el modelo especificado. -
Grabar las respuestas del modelo en un archivo:
ollama run llama3.2 "Cuéntame sobre las energías renovables." > output.txtEste comando guarda la respuesta del modelo en
output.txt.
Casos de uso comunes
-
Generación de texto:
- Resumir un archivo de texto grande:
ollama run llama3.2 "Resuma el siguiente texto:" < long-document.txt - Generar contenido:
ollama run llama3.2 "Escribe un artículo breve sobre los beneficios del uso de la IA en la salud." > article.txt - Contestar preguntas específicas:
ollama run llama3.2 "¿Cuáles son las últimas tendencias en IA y cómo afectarán la salud?"
.
- Resumir un archivo de texto grande:
-
Procesamiento y análisis de datos:
- Clasificar texto en positivo, negativo o neutro:
ollama run llama3.2 "Analiza el sentimiento de esta reseña del cliente: 'El producto es fantástico, pero el envío fue lento.'" - Categorizar texto en categorías predefinidas: Usa comandos similares para clasificar o categorizar texto según criterios predefinidos.
- Clasificar texto en positivo, negativo o neutro:
Usar Ollama con Python
- Instalar la biblioteca de Python de Ollama:
pip install ollama - Generar texto usando Python:
Este fragmento de código genera texto usando el modelo y el prompt especificado.
import ollama response = ollama.generate(model='gemma:2b', prompt='¿qué es un qubit?') print(response['response'])
Para una integración avanzada con Python, explora usar la API de búsqueda web nativa de Ollama en Python, que cubre capacidades de búsqueda web, llamadas de herramientas y integración con servidores MCP. Si estás construyendo aplicaciones con IA, nuestra comparación de asistentes de codificación de IA puede ayudarte a elegir las herramientas adecuadas para el desarrollo.
¿Buscas una interfaz basada en web? Open WebUI proporciona una interfaz autogestionada con capacidades de RAG y soporte para múltiples usuarios. Para despliegues de producción de alto rendimiento, considera vLLM como alternativa.
Enlaces útiles
Alternativas y comparaciones
- Alojamiento local de LLM: Guía completa de 2026 - Ollama, vLLM, LocalAI, Jan, LM Studio y más
- vLLM Quickstart: Servicio de LLM de Alto Rendimiento
- Docker Model Runner vs Ollama: ¿Cuál elegir?
- Primeras señales de enshittificación de Ollama
Rendimiento y hardware
- Cómo Ollama maneja solicitudes paralelas
- Cómo Ollama utiliza el rendimiento y los núcleos eficientes de la CPU de Intel
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparación de rendimiento de Ollama
- DGX Spark vs. Mac Studio: Una mirada práctica y verificada de precios a la supercomputadora de IA personal de NVIDIA
Integración y desarrollo
- Usar la API de búsqueda web nativa de Ollama en Python
- Comparación de asistentes de codificación de IA
- Open WebUI: Interfaz web autogestionada para LLM
- Interfaz de chat de código abierto para LLM en instancias locales de Ollama
- Restringir LLMs con salida estructurada: Ollama, Qwen3 y Python o Go
- Integrar Ollama con Python: ejemplos de API REST y cliente Python
- SDKs de Go para Ollama - comparación con ejemplos