Ollama Cheatsheet - comandi più utili - aggiornamento 2026
Compilato questa lista di comandi Ollama un po' di tempo fa...
Ecco l’elenco e gli esempi dei comandi più utili di Ollama (Ollama commands cheatsheet) L’ho compilato tempo fa, ultima aggiornamento a gennaio 2026. Spero che sarà anche utile per te.

Questo Ollama cheat sheet si concentra sui comandi CLI, sulla gestione dei modelli e sulla personalizzazione, Ma qui abbiamo anche alcuni curl richiami.
Se stai confrontando diverse soluzioni per l’hosting locale di LLM, consulta il nostro confronto completo tra Ollama, vLLM, LocalAI, Jan, LM Studio e altro. Per coloro che cercano alternative agli interfacce a riga di comando, Docker Model Runner offre un approccio diverso all’implementazione di LLM.
Installazione
- Opzione 1: Scarica dal sito web
- Visita ollama.com e scarica l’installer per il tuo sistema operativo (Mac, Linux o Windows).
- Opzione 2: Installa tramite riga di comando
- Per gli utenti Mac e Linux, utilizza il comando:
curl https://ollama.ai/install.sh | sh
- Segui le istruzioni visualizzate e inserisci la tua password se richiesto.
Requisiti del sistema
- Sistema operativo: Mac o Linux (versione Windows in sviluppo)
- Memoria (RAM): Minimo 8 GB, consigliati 16 GB o più
- Archiviazione: Almeno ~10 GB di spazio libero (i file dei modelli potrebbero essere molto grandi, vedi qui di più Sposta i modelli Ollama su un altro disco )
- Processore: Un processore relativamente moderno (degli ultimi 5 anni). Se sei curioso di sapere come Ollama utilizza diverse architetture di CPU, vedi l’analisi di come Ollama utilizza le prestazioni e i core efficienti della CPU Intel.
Per carichi di lavoro AI importanti, potresti voler confrontare le opzioni hardware. Abbiamo effettuato benchmark su NVIDIA DGX Spark vs Mac Studio vs RTX-4080 con Ollama, e se stai considerando un investimento in hardware di alta gamma, il nostro confronto tra prezzi e capacità di DGX Spark fornisce un’analisi dettagliata dei costi.
Comandi base CLI di Ollama
| Comando | Descrizione |
|---|---|
ollama serve |
Avvia Ollama sul tuo sistema locale. |
ollama create <new_model> |
Crea un nuovo modello da uno esistente per la personalizzazione o l’addestramento. |
ollama show <model> |
Mostra i dettagli su un modello specifico, ad esempio la sua configurazione e la data di rilascio. |
ollama run <model> |
Esegue il modello specificato, rendendolo pronto per l’interazione. |
ollama pull <model> |
Scarica il modello specificato sul tuo sistema. |
ollama list |
Elenco di tutti i modelli scaricati. Lo stesso di ollama ls |
ollama ps |
Mostra i modelli attualmente in esecuzione. |
ollama stop <model> |
Ferma il modello specifico in esecuzione. |
ollama rm <model> |
Rimuove il modello specifico dal tuo sistema. |
ollama help |
Fornisce aiuto su qualsiasi comando. |
Gestione dei modelli
-
Scarica un modello:
ollama pull mistral-nemo:12b-instruct-2407-q6_KQuesto comando scarica il modello specificato (ad esempio, Gemma 2B, o mistral-nemo:12b-instruct-2407-q6_K) sul tuo sistema. I file del modello potrebbero essere molto grandi, quindi tieni d’occhio lo spazio utilizzato dai modelli sull’hard disk o sull’SSD. Potresti anche voler spostare tutti i modelli Ollama dal tuo directory home su un altro disco più grande e migliore
-
Esegui un modello:
ollama run qwen2.5:32b-instruct-q3_K_SQuesto comando avvia il modello specificato e apre un REPL interattivo per l’interazione. Vuoi capire come Ollama gestisce le richieste concorrenti multiple? Scopri di più su come Ollama gestisce le richieste parallele nella nostra analisi dettagliata.
-
Elenca i modelli:
ollama listlo stesso di:
ollama lsQuesto comando elenca tutti i modelli scaricati sul tuo sistema, ad esempio
$ ollama ls NAME ID SIZE MODIFIED deepseek-r1:8b 6995872bfe4c 5.2 GB 2 settimane fa gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 settimane fa LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 settimane fa dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 settimane fa dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 settimane fa qwen3:8b 500a1f067a9f 5.2 GB 5 settimane fa qwen3:14b bdbd181c33f2 9.3 GB 5 settimane fa qwen3:30b-a3b 0b28110b7a33 18 GB 5 settimane fa devstral:24b c4b2fa0c33d7 14 GB 5 settimane fa -
Ferma un modello:
ollama stop llama3.1:8b-instruct-q8_0Questo comando ferma il modello specifico in esecuzione.
Rilascio del modello da VRAM
Quando un modello viene caricato in VRAM (memoria della GPU), rimane lì anche dopo aver finito di utilizzarlo. Per rilasciare esplicitamente un modello da VRAM e liberare la memoria della GPU, puoi inviare una richiesta all’API Ollama con keep_alive: 0.
- Rilascia il modello da VRAM utilizzando curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Sostituisci MODELNAME con il nome effettivo del tuo modello, ad esempio:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Rilascia il modello da VRAM utilizzando Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Questo è particolarmente utile quando:
- Hai bisogno di liberare la memoria della GPU per altre applicazioni
- Stai eseguendo diversi modelli e vuoi gestire l’uso della VRAM
- Hai finito di utilizzare un modello grande e vuoi rilasciare le risorse immediatamente
Nota: Il parametro keep_alive controlla per quanto tempo (in secondi) un modello rimane caricato in memoria dopo l’ultima richiesta. Impostandolo su 0 lo scarica immediatamente da VRAM.
Personalizzazione dei modelli
-
Imposta il prompt del sistema: All’interno del REPL Ollama, puoi impostare un prompt del sistema per personalizzare il comportamento del modello:
>>> /set system Per tutte le domande fatte rispondi in inglese semplice evitando il più possibile il gergo tecnico >>> /save ipe >>> /byePoi, esegui il modello personalizzato:
ollama run ipeQuesto imposta un prompt del sistema e salva il modello per un uso futuro.
-
Crea un file del modello personalizzato: Crea un file di testo (ad esempio,
custom_model.txt) con la seguente struttura:FROM llama3.1 SYSTEM [Le tue istruzioni personalizzate qui]Poi, esegui:
ollama create mymodel -f custom_model.txt ollama run mymodelQuesto crea un modello personalizzato basato sulle istruzioni nel file.
Utilizzo di Ollama con file
-
Riassunto del testo da un file:
ollama run llama3.2 "Riassumi il contenuto di questo file in 50 parole." < input.txtQuesto comando riassume il contenuto di
input.txtutilizzando il modello specificato. -
Salva le risposte del modello in un file:
ollama run llama3.2 "Dimmi qualcosa sull'energia rinnovabile." > output.txtQuesto comando salva la risposta del modello in
output.txt.
Caso d’uso comuni
-
Generazione di testo:
- Riassumere un file di testo lungo:
ollama run llama3.2 "Riassumi il seguente testo:" < long-document.txt - Generare contenuto:
ollama run llama3.2 "Scrivi un breve articolo sui vantaggi dell'utilizzo dell'AI nella sanità." > article.txt - Rispondere a domande specifiche:
ollama run llama3.2 "Quali sono le ultime tendenze dell'AI e come influenzeranno la sanità?"
.
- Riassumere un file di testo lungo:
-
Elaborazione e analisi dei dati:
- Classificare il testo in sentimenti positivi, negativi o neutri:
ollama run llama3.2 "Analizza il sentiment di questa recensione del cliente: 'Il prodotto è fantastico, ma la consegna era lenta.'" - Categorizzare il testo in categorie predefinite: Utilizza comandi simili per classificare o categorizzare il testo in base a criteri predefiniti.
- Classificare il testo in sentimenti positivi, negativi o neutri:
Utilizzo di Ollama con Python
- Installa la libreria Python di Ollama:
pip install ollama - Genera testo utilizzando Python:
Questo frammento di codice genera testo utilizzando il modello e il prompt specificati.
import ollama response = ollama.generate(model='gemma:2b', prompt='cosa è un qubit?') print(response['response'])
Per un’integrazione avanzata con Python, esplora l’uso dell’API Web Search di Ollama in Python, che copre le capacità di ricerca web, le chiamate agli strumenti e l’integrazione con i server MCP. Se stai costruendo applicazioni alimentate da AI, il nostro confronto tra assistenti di codifica AI può aiutarti a scegliere gli strumenti giusti per lo sviluppo.
Cerchi un’interfaccia web-based? Open WebUI fornisce un’interfaccia auto-hosted con capacità RAG e supporto multi-utente. Per deployment ad alte prestazioni, considera vLLM come alternativa.
Link utili
Alternative e confronti
- Host locale LLM: Guida completa 2026 - Ollama, vLLM, LocalAI, Jan, LM Studio & Altri
- Quickstart vLLM: Servizio LLM ad alte prestazioni
- Docker Model Runner vs Ollama: Quale scegliere?
- Prime indicazioni dell’enshittification di Ollama
Prestazioni e hardware
- Come Ollama gestisce le richieste parallele
- Come Ollama utilizza le prestazioni e i core efficienti della CPU Intel
- Confronto delle prestazioni di Ollama tra NVIDIA DGX Spark, Mac Studio e RTX-4080
- DGX Spark vs. Mac Studio: Una panoramica pratica, verificata sui prezzi, su NVIDIA’s Personal AI Supercomputer
Integrazione e sviluppo
- Utilizzo dell’API Web Search nativa di Ollama in Python
- Confronto tra assistenti di codifica AI
- Open WebUI: interfaccia auto-hosted per LLM
- Interfacce di chat open-source per LLM su istanze locali Ollama
- Limitare gli LLM con output strutturato: Ollama, Qwen3 & Python o Go
- Integrare Ollama con Python: esempi di API REST e client Python
- SDK Go per Ollama - confronto con esempi