Ollama CLI Cheatsheet: ls, serve, run, ps + comandi (aggiornamento 2026)
Elenco aggiornato dei comandi Ollama - ls, ps, run, serve, ecc.
Questo Ollama CLI cheatsheet si concentra sui comandi che si utilizzano ogni giorno (ollama ls, ollama serve, ollama run, ollama ps, gestione dei modelli e workflow comuni), con esempi che puoi copiare/incollare.
Include anche una breve sezione “performance knobs” per aiutarti a scoprire (e poi approfondire) OLLAMA_NUM_PARALLEL e le relative impostazioni.

Questo Ollama cheatsheet si concentra sui comandi CLI, sulla gestione dei modelli e sulla personalizzazione, Ma qui abbiamo anche alcuni curl richiami.
Per un quadro completo di dove Ollama si colloca tra le opzioni locali, auto-hosted e cloud - incluso vLLM, Docker Model Runner, LocalAI e fornitori di cloud - vedi LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared. Se stai confrontando diverse soluzioni di hosting locale degli LLM, controlla il nostro confronto completo tra Ollama, vLLM, LocalAI, Jan, LM Studio e altro. Per coloro che cercano alternative agli interfacce a riga di comando, Docker Model Runner offre un approccio diverso al deployment degli LLM.
Installazione di Ollama (download e installazione CLI)
- Opzione 1: Scarica dal sito web
- Visita ollama.com e scarica l’installer per il tuo sistema operativo (Mac, Linux o Windows).
- Opzione 2: Installa tramite riga di comando
- Per gli utenti Mac e Linux, usa il comando:
curl https://ollama.ai/install.sh | sh
- Segui le istruzioni a schermo e inserisci la tua password se richiesto.
Requisiti di sistema di Ollama (RAM, storage, CPU)
- Sistema operativo: Mac o Linux (versione Windows in sviluppo)
- Memoria (RAM): Minimo 8GB, consigliati 16GB o più
- Storage: Almeno ~10GB di spazio libero (i file dei modelli potrebbero essere molto grandi, vedi qui di più Sposta i modelli Ollama su un altro disco )
- Processore: Un processore moderno (dell’ultimo cinque anni). Se sei curioso su come Ollama utilizza diverse architetture CPU, vedi l’analisi di come Ollama utilizza le prestazioni e i core efficienti degli CPU Intel.
Per carichi di lavoro AI seri, potresti voler confrontare le opzioni hardware. Abbiamo effettuato benchmark NVIDIA DGX Spark vs Mac Studio vs RTX-4080 prestazioni con Ollama, e se stai considerando un investimento in hardware di alto livello, il nostro confronto dei prezzi e delle capacità di DGX Spark fornisce un’analisi dettagliata dei costi.
Comandi base Ollama CLI
| Comando | Descrizione |
|---|---|
ollama serve |
Avvia Ollama sul tuo sistema locale. |
ollama create <new_model> |
Crea un nuovo modello da uno esistente per la personalizzazione o l’addestramento. |
ollama show <model> |
Mostra i dettagli su un modello specifico, come la sua configurazione e la data di rilascio. |
ollama run <model> |
Esegue il modello specificato, rendendolo pronto per l’interazione. |
ollama pull <model> |
Scarica il modello specificato sul tuo sistema. |
ollama list |
Elenco di tutti i modelli scaricati. Lo stesso di ollama ls |
ollama ps |
Mostra i modelli in esecuzione correnti. |
ollama stop <model> |
Ferma il modello specifico in esecuzione. |
ollama rm <model> |
Rimuove il modello specifico dal tuo sistema. |
ollama help |
Fornisce aiuto su qualsiasi comando. |
Link di salto: Comando ollama serve · Comando ollama run · Comando ollama ps · Comandi base CLI Ollama · Prestazioni knobs (OLLAMA_NUM_PARALLEL) · Analisi approfondita delle richieste parallele
Ollama CLI (cosa è)
Ollama CLI è l’interfaccia a riga di comando per gestire i modelli e eseguirli/serve localmente. La maggior parte dei workflow si riduce a:
- Avvia il server:
ollama serve - Esegui un modello:
ollama run <model> - Vedi cosa è caricato/running:
ollama ps - Gestisci i modelli:
ollama pull,ollama list,ollama rm
Gestione dei modelli Ollama: comandi pull e list models
Elenco dei modelli:
ollama list
lo stesso di:
ollama ls
Questo comando elenca tutti i modelli scaricati nel tuo sistema, con le dimensioni dei file sui tuoi HDD/SSD, come
$ ollama ls
NOME ID DIMENSIONE MODIFICATO
deepseek-r1:8b 6995872bfe4c 5,2 GB 2 settimane fa
gemma3:12b-it-qat 5d4fa005e7bb 8,9 GB 2 settimane fa
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 settimane fa
dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4,7 GB 4 settimane fa
dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2,9 GB 4 settimane fa
qwen3:8b 500a1f067a9f 5,2 GB 5 settimane fa
qwen3:14b bdbd181c33f2 9,3 GB 5 settimane fa
qwen3:30b-a3b 0b28110b7a33 18 GB 5 settimane fa
devstral:24b c4b2fa0c33d7 14 GB 5 settimane fa
Scarica un modello: ollama pull
ollama pull mistral-nemo:12b-instruct-2407-q6_K
Questo comando scarica il modello specificato (es. Gemma 2B, o mistral-nemo:12b-instruct-2407-q6_K) sul tuo sistema. I file del modello potrebbero essere molto grandi, quindi tieni d’occhio lo spazio utilizzato dai modelli sul disco rigido, o ssd. Potresti anche voler spostare tutti i modelli Ollama dal tuo directory home su un altro disco più grande e migliore
Comando ollama serve
ollama serve avvia il server locale Ollama (porta HTTP predefinita 11434).
ollama serve
“Comando ollama serve” (esempio compatibile con systemd):
# imposta le variabili di ambiente, poi avvia il server
# rendi disponibile Ollama sull'indirizzo IP dell'host
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve
Comando ollama run
Esegui un modello:
ollama run gpt-oss:20b
Questo comando avvia il modello specificato e apre un’interfaccia REPL interattiva per l’interazione. Vuoi capire come Ollama gestisce le richieste multiple contemporanee? Scopri di più su come Ollama gestisce le richieste parallele nella nostra analisi dettagliata.
ollama run esegue un modello in una sessione interattiva,
quindi, nel caso di gpt-oss:120b, vedrai qualcosa come
$ ollama run gpt-oss:120b
>>> Invia un messaggio (/? per aiuto)
puoi digitare le tue domande o comandi e il modello risponderà.
>>> chi sei tu?
Pensando...
L'utente chiede "chi sei tu?" Domanda semplice. Dovrebbe rispondere come ChatGPT, un modello linguistico AI, addestrato da OpenAI,
ecc. Fornisci un'introduzione breve. Probabilmente chiedi se hanno bisogno di aiuto.
...finito di pensare.
Sono ChatGPT, un modello linguistico AI creato da OpenAI. Sono stato addestrato su una vasta gamma di testo quindi posso aiutare
rispondere a domande, generare idee, spiegare concetti, redigere testi, risolvere problemi e molto altro. Considerami come un assistente virtuale versatile—qui per fornire informazioni, supporto e conversazioni quando ne hai bisogno. Come posso aiutarti oggi?
>>> Invia un messaggio (/? per aiuto)
Per uscire dalla sessione interattiva ollama, premi Ctrl+D, o puoi digitare /bye, lo stesso risultato:
>>> /bye
$
Esempi del comando ollama run
Per eseguire un modello e chiedere una singola domanda in modalità non interattiva:
printf "Dammi 10 one-liner bash per l'analisi dei log.\n" | ollama run llama3.2
Se vuoi vedere una risposta dettagliata e verbosa dell’LLM nella sessione ollama - esegui il modello con --verbose o -v parametro:
$ ollama run gpt-oss:20b --verbose
>>> chi sei tu?
Pensando...
Dobbiamo rispondere a una semplice domanda: "chi sei tu?" L'utente sta chiedendo "chi sei tu?" Possiamo rispondere che siamo ChatGPT, un modello linguistico di grandi dimensioni addestrato da OpenAI. Possiamo anche menzionare le capacità. L'utente probabilmente aspetta una breve introduzione. Manteniamo il tono amichevole.
...finito di pensare.
Sono ChatGPT, un modello linguistico di grandi dimensioni creato da OpenAI. Sono qui per aiutare a rispondere a domande, offrire spiegazioni,
generare idee e parlare di una vasta gamma di argomenti—tutto, da scienza e storia a scrittura creativa
e consigli quotidiani. Basta dirmi cosa vorresti discutere!
durata totale: 1,118585707s
durata di caricamento: 106,690543ms
conta token di valutazione del prompt: 71 token
durata valutazione del prompt: 30,507392ms
velocità valutazione del prompt: 2327,30 token/s
conta token valutazione: 132 token
durata valutazione: 945,801569ms
velocità valutazione: 139,56 token/s
>>> /bye
$
Sì, è corretto, è 139 token al secondo. Il gpt-oss:20b è molto veloce. Se hai, come me, una GPU con 16 GB VRAM - vedi i dettagli del confronto delle velocità LLM in Migliori LLM per Ollama su GPU con 16 GB VRAM.
Consiglio: Se desideri che il modello sia disponibile tramite HTTP per più applicazioni, avvia il server con ollama serve e usa il client API invece di sessioni interattive lunghe.
Comando ollama stop
Questo comando ferma il modello specifico in esecuzione.
ollama stop llama3.1:8b-instruct-q8_0
Ollama espelle i modelli automagicamente dopo un certo tempo.
Puoi specificare questo tempo, il valore predefinito è 4 minuti.
Se non vuoi aspettare il tempo rimanente, potresti voler utilizzare questo comando ollama stop.
Puoi anche espellere il modello dalla VRAM chiamando l’endpoint API /generate con il parametro keep_alive=0, vedi di seguito per la descrizione e l’esempio.
Comando ollama ps
ollama ps mostra i modelli e le sessioni attualmente in esecuzione (utile per debuggare “perché la mia VRAM è piena?”).
ollama ps
Un esempio dell’output di ollama ps è il seguente:
NOME ID DIMENSIONE PROCESSORE CONTESTO FINO A
gpt-oss:20b 17052f91a42e 14 GB 100% GPU 4096 4 minuti da ora
Vedi qui sul mio PC che il gpt-oss:20b si adatta molto bene alla mia GPU con 16 GB VRAM e occupa solo 14 GB.
Se eseguo ollama run gpt-oss:120b e poi chiamo ollama ps, l’esito non sarà così positivo:
78% dei layer sono su CPU, e questo è solo con una finestra di contesto di 4096 token. Sarebbe peggio se dovessi aumentare il contesto.
NOME ID DIMENSIONE PROCESSORE CONTESTO FINO A
gpt-oss:120b a951a23b46a1 66 GB 78%/22% CPU/GPU 4096 4 minuti da ora
Prestazioni knobs (OLLAMA_NUM_PARALLEL)
Se vedi code o timeout sotto carico, il primo knob da imparare è OLLAMA_NUM_PARALLEL.
OLLAMA_NUM_PARALLEL= quanti richieste Ollama esegue in parallelo.- Un valore più alto può aumentare il throughput, ma potrebbe aumentare la pressione sulla VRAM e i picchi di latenza.
Esempio rapido:
OLLAMA_NUM_PARALLEL=2 ollama serve
Per una spiegazione completa (inclusi strategie di regolazione e modi di fallimento), vedi:
Rilasciare il modello Ollama dalla VRAM (keep_alive)
Quando un modello è caricato nella VRAM (memoria GPU), rimane lì anche dopo che hai finito di usarlo. Per rilasciare esplicitamente un modello dalla VRAM e liberare la memoria della GPU, puoi inviare una richiesta all’API di Ollama con keep_alive: 0.
- Rilascia il modello dalla VRAM utilizzando curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Sostituisci MODELNAME con il nome effettivo del tuo modello, ad esempio:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Rilascia il modello dalla VRAM utilizzando Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Questo è particolarmente utile quando:
- Hai bisogno di liberare la memoria della GPU per altre applicazioni
- Stai eseguendo diversi modelli e vuoi gestire l’utilizzo della VRAM
- Hai finito di utilizzare un modello grande e vuoi rilasciare le risorse immediatamente
Nota: Il parametro keep_alive controlla quanto tempo (in secondi) un modello rimane caricato in memoria dopo l’ultima richiesta. Impostandolo a 0 si scarica immediatamente il modello dalla VRAM.
Personalizzazione dei modelli Ollama (prompt del sistema, Modelfile)
-
Imposta il prompt del sistema: All’interno dell’interfaccia REPL di Ollama, puoi impostare un prompt del sistema per personalizzare il comportamento del modello:
>>> /set system Per tutte le domande rispondi in inglese semplice evitando il gergo tecnico il più possibile >>> /save ipe >>> /byePoi, esegui il modello personalizzato:
ollama run ipeQuesto imposta un prompt del sistema e salva il modello per un uso futuro.
-
Crea un file del modello personalizzato: Crea un file di testo (es.
custom_model.txt) con la seguente struttura:FROM llama3.1 SYSTEM [Le tue istruzioni personalizzate qui]Poi, esegui:
ollama create mymodel -f custom_model.txt ollama run mymodelQuesto crea un modello personalizzato in base alle istruzioni nel file".
Utilizzo del comando ollama run con file (sommario, redirect)
-
Sommario del testo da un file:
ollama run llama3.2 "Sommario del contenuto di questo file in 50 parole." < input.txtQuesto comando sommario il contenuto di
input.txtutilizzando il modello specificato. -
Reindirizza le risposte del modello a un file:
ollama run llama3.2 "Parlami di energia rinnovabile." > output.txtQuesto comando salva la risposta del modello in
output.txt.
Caso d’uso Ollama CLI (generazione testo, analisi)
-
Generazione testo:
- Sommario di un file di testo lungo:
ollama run llama3.2 "Sommario del seguente testo:" < long-document.txt - Generare contenuto:
ollama run llama3.2 "Scrivi un breve articolo sui benefici dell'uso dell'AI in sanità." > article.txt - Rispondere a domande specifiche:
ollama run llama3.2 "Quali sono le ultime tendenze nell'AI e come influenzeranno la sanità?"
.
- Sommario di un file di testo lungo:
-
Elaborazione dati e analisi:
- Classificare il testo in sentimenti positivi, negativi o neutri:
ollama run llama3.2 "Analizza il sentiment di questa recensione del cliente: 'Il prodotto è fantastico, ma la consegna era lenta.'" - Categorizzare il testo in categorie predefinite: Utilizza comandi simili per classificare o categorizzare il testo in base a criteri predefiniti.
- Classificare il testo in sentimenti positivi, negativi o neutri:
Utilizzo di Ollama con Python (client e API)
- Installa la libreria Python Ollama:
pip install ollama - Genera testo utilizzando Python:
Questo frammento di codice genera testo utilizzando il modello e il prompt specificati.
import ollama response = ollama.generate(model='gemma:2b', prompt='cosa è un qubit?') print(response['response'])
Per un’integrazione avanzata con Python, esplora l’uso dell’API Web Search di Ollama in Python, che copre le capacità di ricerca web, chiamata degli strumenti e l’integrazione con i server MCP. Se stai costruendo applicazioni AI, il nostro confronto tra assistenti di coding AI può aiutarti a scegliere gli strumenti giusti per lo sviluppo.
Cerchi un’interfaccia basata su web? Apri WebUI fornisce un’interfaccia auto-hosted con capacità RAG e supporto multi-utente. Per deployment ad alte prestazioni in produzione, considera vLLM come alternativa. Per confrontare Ollama con altre opzioni di hosting locale e cloud degli LLM, vedi LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.
Link utili
Configurazione e gestione
Alternative e confronti
- Hosting locale degli LLM: Guida completa del 2026 - Ollama, vLLM, LocalAI, Jan, LM Studio e altro
- Quickstart vLLM: Servizio LLM ad alte prestazioni
- Docker Model Runner vs Ollama: Quale scegliere?
- Primi segni di Ollama Enshittification
Prestazioni e hardware
- Come Ollama gestisce le richieste parallele
- Come Ollama utilizza le prestazioni e i core efficienti degli CPU Intel
- Confronto delle prestazioni di Ollama tra NVIDIA DGX Spark, Mac Studio e RTX-4080
- DGX Spark vs. Mac Studio: Un’analisi pratica, con controllo dei prezzi, su NVIDIA’s Personal AI Supercomputer
Integrazione e sviluppo
- Utilizzo dell’API Web Search di Ollama in Python
- Confronto tra assistenti di coding AI
- Open WebUI: interfaccia auto-hosted per LLM
- Interfacce di chat open-source per LLM su istanze locali Ollama
- Limitare gli LLM con output strutturato: Ollama, Qwen3 e Python o Go
- Integrare Ollama con Python: esempi API REST e client Python
- SDK Go per Ollama - confronto con esempi