Guia Rápido do Ollama - comandos mais úteis - atualização de 2026
Compilei esta lista de comandos do Ollama há algum tempo...
Aqui está a lista e exemplos dos comandos mais úteis do Ollama (folha de dicas dos comandos do Ollama) Compilei há algum tempo, última atualização em janeiro de 2026. Espero que também seja útil para você useful to you.

Esta folha de dicas do Ollama está se concentrando em comandos da linha de comando, gerenciamento de modelos e personalização, Mas também temos aqui alguns curl chamadas também.
Se você está comparando diferentes soluções locais de hospedagem de LLM, confira nossa comparação abrangente de Ollama, vLLM, LocalAI, Jan, LM Studio e mais. Para aqueles que buscam alternativas a interfaces de linha de comando, Docker Model Runner oferece uma abordagem diferente para a implantação de LLM.
Instalação
- Opção 1: Baixar do site
- Visite ollama.com e baixe o instalador para seu sistema operacional (Mac, Linux ou Windows).
- Opção 2: Instalar via linha de comando
- Para usuários de Mac e Linux, use o comando:
curl https://ollama.ai/install.sh | sh
- Siga as instruções na tela e insira sua senha se solicitado.
Requisitos do sistema
- Sistema operacional: Mac ou Linux (versão Windows em desenvolvimento)
- Memória (RAM): Mínimo 8GB, recomendado 16GB ou mais
- Armazenamento: Pelo menos ~10GB de espaço livre (os arquivos do modelo podem ser realmente grandes, veja mais Mover modelos do Ollama para um drive diferente )
- Processador: Um CPU relativamente moderno (dos últimos 5 anos). Se você estiver curioso sobre como o Ollama utiliza diferentes arquiteturas de CPU, veja nossa análise de como o Ollama usa o desempenho e núcleos eficientes da CPU Intel.
Para cargas de trabalho de IA sérias, você pode querer comparar opções de hardware. Nós benchmarks NVIDIA DGX Spark vs Mac Studio vs RTX-4080 desempenho com Ollama, e se você estiver considerando investir em hardware de alta performance, nossa comparação de preços e capacidades do DGX Spark fornece uma análise detalhada de custos.
Comandos básicos do CLI do Ollama
| Comando | Descrição |
|---|---|
ollama serve |
Inicia o Ollama no seu sistema local. |
ollama create <new_model> |
Cria um novo modelo a partir de um existente para personalização ou treinamento. |
ollama show <model> |
Exibe detalhes sobre um modelo específico, como sua configuração e data de liberação. |
ollama run <model> |
Executa o modelo especificado, tornando-o pronto para interação. |
ollama pull <model> |
Baixa o modelo especificado para seu sistema. |
ollama list |
Lista todos os modelos baixados. O mesmo que ollama ls |
ollama ps |
Mostra os modelos que estão sendo executados atualmente. |
ollama stop <model> |
Para o modelo especificado que está sendo executado. |
ollama rm <model> |
Remove o modelo especificado do seu sistema. |
ollama help |
Fornece ajuda sobre qualquer comando. |
Gerenciamento de Modelo
-
Baixar um Modelo:
ollama pull mistral-nemo:12b-instruct-2407-q6_KEste comando baixa o modelo especificado (por exemplo, Gemma 2B, ou mistral-nemo:12b-instruct-2407-q6_K) para seu sistema. Os arquivos do modelo podem ser bastante grandes, então mantenha um olho no espaço usado pelos modelos no disco rígido, ou ssd. Você talvez até queira mover todos os modelos do Ollama do seu diretório de casa para outro drive maior e melhor
-
Executar um Modelo:
ollama run qwen2.5:32b-instruct-q3_K_SEste comando inicia o modelo especificado e abre um REPL interativo para interação. Quer entender como o Ollama gerencia pedidos concorrentes múltiplos? Saiba mais sobre como o Ollama lida com solicitações paralelas em nossa análise detalhada.
-
Listar Modelos:
ollama listo mesmo que:
ollama lsEste comando lista todos os modelos que foram baixados para seu sistema, como
$ ollama ls NOME ID TAMANHO MODIFICADO deepseek-r1:8b 6995872bfe4c 5,2 GB 2 semanas atrás gemma3:12b-it-qat 5d4fa005e7bb 8,9 GB 2 semanas atrás LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 semanas atrás dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4,7 GB 4 semanas atrás dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2,9 GB 4 semanas atrás qwen3:8b 500a1f067a9f 5,2 GB 5 semanas atrás qwen3:14b bdbd181c33f2 9,3 GB 5 semanas atrás qwen3:30b-a3b 0b28110b7a33 18 GB 5 semanas atrás devstral:24b c4b2fa0c33d7 14 GB 5 semanas atrás -
Parar um Modelo:
ollama stop llama3.1:8b-instruct-q8_0Este comando para o modelo especificado que está sendo executado.
Liberar Modelo da VRAM
Quando um modelo é carregado na VRAM (memória da GPU), ele permanece lá mesmo após você terminar de usá-lo. Para liberar explicitamente um modelo da VRAM e liberar a memória da GPU, você pode enviar uma solicitação para a API do Ollama com keep_alive: 0.
- Liberar Modelo da VRAM usando curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Substitua MODELNAME pelo nome real do seu modelo, por exemplo:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Liberar Modelo da VRAM usando Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Isso é particularmente útil quando:
- Você precisa liberar a memória da GPU para outras aplicações
- Você está executando múltiplos modelos e quer gerenciar o uso da VRAM
- Você terminou de usar um modelo grande e quer liberar os recursos imediatamente
Nota: O parâmetro keep_alive controla por quanto tempo (em segundos) um modelo permanece carregado na memória após a última solicitação. Definir para 0 descarrega o modelo da VRAM imediatamente.
Personalizando Modelos
-
Definir Prompt do Sistema: Dentro do REPL do Ollama, você pode definir um prompt do sistema para personalizar o comportamento do modelo:
>>> /set system Para todas as perguntas respondidas em inglês simples evitando jargões técnicos o máximo possível >>> /save ipe >>> /byeEm seguida, execute o modelo personalizado:
ollama run ipeIsso define um prompt do sistema e salva o modelo para uso futuro.
-
Criar um Arquivo de Modelo Personalizado: Crie um arquivo de texto (por exemplo,
custom_model.txt) com a seguinte estrutura:FROM llama3.1 SYSTEM [Seus instruções personalizadas aqui]Em seguida, execute:
ollama create mymodel -f custom_model.txt ollama run mymodelIsso cria um modelo personalizado com base nas instruções no arquivo.
Usando Ollama com Arquivos
-
Resumir o Texto de um Arquivo:
ollama run llama3.2 "Resuma o conteúdo deste arquivo em 50 palavras." < input.txtEste comando resumirá o conteúdo de
input.txtusando o modelo especificado. -
Gravar as Respostas do Modelo em um Arquivo:
ollama run llama3.2 "Me conte sobre energia renovável." > output.txtEste comando salva a resposta do modelo em
output.txt.
Casos de Uso Comuns
-
Geração de Texto:
- Resumir um grande arquivo de texto:
ollama run llama3.2 "Resuma o seguinte texto:" < long-document.txt - Gerar conteúdo:
ollama run llama3.2 "Escreva um artigo curto sobre os benefícios do uso de IA na saúde." > article.txt - Responder perguntas específicas:
ollama run llama3.2 "Quais são as últimas tendências em IA e como elas afetarão a saúde?"
.
- Resumir um grande arquivo de texto:
-
Processamento e Análise de Dados:
- Classificar o texto em sentimentos positivos, negativos ou neutros:
ollama run llama3.2 "Analise o sentimento desta avaliação do cliente: 'O produto é fantástico, mas a entrega foi lenta.'" - Categorizar o texto em categorias pré-definidas: Use comandos semelhantes para classificar ou categorizar o texto com base em critérios pré-definidos.
- Classificar o texto em sentimentos positivos, negativos ou neutros:
Usando Ollama com Python
- Instalar a Biblioteca Python do Ollama:
pip install ollama - Gerar Texto Usando Python:
Este trecho de código gera texto usando o modelo e o prompt especificado.
import ollama response = ollama.generate(model='gemma:2b', prompt='o que é um qubit?') print(response['response'])
Para integração avançada com Python, explore usar a API de busca da Web do Ollama em Python, que abrange capacidades de busca na web, chamada de ferramentas e integração com servidores MCP. Se você está construindo aplicações com IA, nossa comparação de assistentes de codificação de IA pode ajudá-lo a escolher as ferramentas certas para o desenvolvimento.
Procurando uma interface baseada em web? Open WebUI oferece uma interface auto-hospedada com capacidades de RAG e suporte a múltiplos usuários. Para implantações de produção de alto desempenho, considere vLLM como alternativa.
Links Úteis
Alternativas e Comparações
- Hospedagem de LLM Local: Guia Completo de 2026 - Ollama, vLLM, LocalAI, Jan, LM Studio & Mais
- vLLM Quickstart: Serviço de LLM de Alto Desempenho
- Docker Model Runner vs Ollama: Qual Escolher?
- Primeiros Sinais de Enshittification do Ollama
Desempenho e Hardware
- Como o Ollama Lida com Solicitações Paralelas
- Como o Ollama usa o desempenho e núcleos eficientes da CPU Intel
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Comparação de Desempenho do Ollama
- DGX Spark vs. Mac Studio: Uma Visão Prática, com Preços, da Supercomputadora de IA Pessoal da NVIDIA
Integração e Desenvolvimento
- Usando a API de Busca da Web do Ollama em Python
- Comparação de Assistentes de Codificação de IA
- Open WebUI: Interface Auto-hospedada para LLM
- UIs de Chat Abertas para LLMs em Instâncias Locais do Ollama
- Restringindo LLMs com Saída Estruturada: Ollama, Qwen3 & Python ou Go
- Integrando Ollama com Python: Exemplos de API REST e Cliente Python
- SDKs Go para Ollama - comparação com exemplos