Ollama CLI Cheatsheet: ls, serve, run, ps + comandi (aggiornamento 2026)

Elenco aggiornato dei comandi Ollama - ls, ps, run, serve, ecc.

Indice

Questo Ollama CLI cheatsheet si concentra sui comandi che si utilizzano ogni giorno (ollama ls, ollama serve, ollama run, ollama ps, gestione dei modelli e workflow comuni), con esempi che puoi copiare/incollare.

Include anche una breve sezione “performance knobs” per aiutarti a scoprire (e poi approfondire) OLLAMA_NUM_PARALLEL e le relative impostazioni.

ollama cheatsheet

Questo Ollama cheatsheet si concentra sui comandi CLI, sulla gestione dei modelli e sulla personalizzazione, Ma qui abbiamo anche alcuni curl richiami.

Per un quadro completo di dove Ollama si colloca tra le opzioni locali, auto-hosted e cloud - incluso vLLM, Docker Model Runner, LocalAI e fornitori di cloud - vedi LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared. Se stai confrontando diverse soluzioni di hosting locale degli LLM, controlla il nostro confronto completo tra Ollama, vLLM, LocalAI, Jan, LM Studio e altro. Per coloro che cercano alternative agli interfacce a riga di comando, Docker Model Runner offre un approccio diverso al deployment degli LLM.

Installazione di Ollama (download e installazione CLI)

  • Opzione 1: Scarica dal sito web
    • Visita ollama.com e scarica l’installer per il tuo sistema operativo (Mac, Linux o Windows).
  • Opzione 2: Installa tramite riga di comando
    • Per gli utenti Mac e Linux, usa il comando:
curl https://ollama.ai/install.sh | sh
  • Segui le istruzioni a schermo e inserisci la tua password se richiesto.

Requisiti di sistema di Ollama (RAM, storage, CPU)

Per carichi di lavoro AI seri, potresti voler confrontare le opzioni hardware. Abbiamo effettuato benchmark NVIDIA DGX Spark vs Mac Studio vs RTX-4080 prestazioni con Ollama, e se stai considerando un investimento in hardware di alto livello, il nostro confronto dei prezzi e delle capacità di DGX Spark fornisce un’analisi dettagliata dei costi.

Comandi base Ollama CLI

Comando Descrizione
ollama serve Avvia Ollama sul tuo sistema locale.
ollama create <new_model> Crea un nuovo modello da uno esistente per la personalizzazione o l’addestramento.
ollama show <model> Mostra i dettagli su un modello specifico, come la sua configurazione e la data di rilascio.
ollama run <model> Esegue il modello specificato, rendendolo pronto per l’interazione.
ollama pull <model> Scarica il modello specificato sul tuo sistema.
ollama list Elenco di tutti i modelli scaricati. Lo stesso di ollama ls
ollama ps Mostra i modelli in esecuzione correnti.
ollama stop <model> Ferma il modello specifico in esecuzione.
ollama rm <model> Rimuove il modello specifico dal tuo sistema.
ollama help Fornisce aiuto su qualsiasi comando.

Link di salto: Comando ollama serve · Comando ollama run · Comando ollama ps · Comandi base CLI Ollama · Prestazioni knobs (OLLAMA_NUM_PARALLEL) · Analisi approfondita delle richieste parallele

Ollama CLI (cosa è)

Ollama CLI è l’interfaccia a riga di comando per gestire i modelli e eseguirli/serve localmente. La maggior parte dei workflow si riduce a:

  • Avvia il server: ollama serve
  • Esegui un modello: ollama run <model>
  • Vedi cosa è caricato/running: ollama ps
  • Gestisci i modelli: ollama pull, ollama list, ollama rm

Gestione dei modelli Ollama: comandi pull e list models

Elenco dei modelli:

ollama list

lo stesso di:

ollama ls

Questo comando elenca tutti i modelli scaricati nel tuo sistema, con le dimensioni dei file sui tuoi HDD/SSD, come

$ ollama ls
NOME                                                    ID              DIMENSIONE      MODIFICATO     
deepseek-r1:8b                                          6995872bfe4c    5,2 GB    2 settimane fa     
gemma3:12b-it-qat                                       5d4fa005e7bb    8,9 GB    2 settimane fa     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 settimane fa     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4,7 GB    4 settimane fa     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2,9 GB    4 settimane fa     
qwen3:8b                                                500a1f067a9f    5,2 GB    5 settimane fa     
qwen3:14b                                               bdbd181c33f2    9,3 GB    5 settimane fa     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 settimane fa     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 settimane fa  

Scarica un modello: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

Questo comando scarica il modello specificato (es. Gemma 2B, o mistral-nemo:12b-instruct-2407-q6_K) sul tuo sistema. I file del modello potrebbero essere molto grandi, quindi tieni d’occhio lo spazio utilizzato dai modelli sul disco rigido, o ssd. Potresti anche voler spostare tutti i modelli Ollama dal tuo directory home su un altro disco più grande e migliore

Comando ollama serve

ollama serve avvia il server locale Ollama (porta HTTP predefinita 11434).

ollama serve

“Comando ollama serve” (esempio compatibile con systemd):

# imposta le variabili di ambiente, poi avvia il server
# rendi disponibile Ollama sull'indirizzo IP dell'host
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Comando ollama run

Esegui un modello:

ollama run gpt-oss:20b

Questo comando avvia il modello specificato e apre un’interfaccia REPL interattiva per l’interazione. Vuoi capire come Ollama gestisce le richieste multiple contemporanee? Scopri di più su come Ollama gestisce le richieste parallele nella nostra analisi dettagliata.

ollama run esegue un modello in una sessione interattiva, quindi, nel caso di gpt-oss:120b, vedrai qualcosa come

$ ollama run gpt-oss:120b
>>> Invia un messaggio (/? per aiuto)

puoi digitare le tue domande o comandi e il modello risponderà.

>>> chi sei tu?
Pensando...
L'utente chiede "chi sei tu?" Domanda semplice. Dovrebbe rispondere come ChatGPT, un modello linguistico AI, addestrato da OpenAI, 
ecc. Fornisci un'introduzione breve. Probabilmente chiedi se hanno bisogno di aiuto.
...finito di pensare.

Sono ChatGPT, un modello linguistico AI creato da OpenAI. Sono stato addestrato su una vasta gamma di testo quindi posso aiutare 
rispondere a domande, generare idee, spiegare concetti, redigere testi, risolvere problemi e molto altro. Considerami come un assistente virtuale versatile—qui per fornire informazioni, supporto e conversazioni quando ne hai bisogno. Come posso aiutarti oggi?

>>> Invia un messaggio (/? per aiuto)

Per uscire dalla sessione interattiva ollama, premi Ctrl+D, o puoi digitare /bye, lo stesso risultato:

>>> /bye
$ 

Esempi del comando ollama run

Per eseguire un modello e chiedere una singola domanda in modalità non interattiva:

printf "Dammi 10 one-liner bash per l'analisi dei log.\n" | ollama run llama3.2

Se vuoi vedere una risposta dettagliata e verbosa dell’LLM nella sessione ollama - esegui il modello con --verbose o -v parametro:

$ ollama run gpt-oss:20b --verbose
>>> chi sei tu?
Pensando...
Dobbiamo rispondere a una semplice domanda: "chi sei tu?" L'utente sta chiedendo "chi sei tu?" Possiamo rispondere che siamo ChatGPT, un modello linguistico di grandi dimensioni addestrato da OpenAI. Possiamo anche menzionare le capacità. L'utente probabilmente aspetta una breve introduzione. Manteniamo il tono amichevole.
...finito di pensare.

Sono ChatGPT, un modello linguistico di grandi dimensioni creato da OpenAI. Sono qui per aiutare a rispondere a domande, offrire spiegazioni, 
generare idee e parlare di una vasta gamma di argomenti—tutto, da scienza e storia a scrittura creativa 
e consigli quotidiani. Basta dirmi cosa vorresti discutere!

durata totale:       1,118585707s
durata di caricamento:        106,690543ms
conta token di valutazione del prompt:    71 token
durata valutazione del prompt: 30,507392ms
velocità valutazione del prompt: 2327,30 token/s
conta token valutazione:           132 token
durata valutazione:        945,801569ms
velocità valutazione:            139,56 token/s
>>> /bye
$ 

Sì, è corretto, è 139 token al secondo. Il gpt-oss:20b è molto veloce. Se hai, come me, una GPU con 16 GB VRAM - vedi i dettagli del confronto delle velocità LLM in Migliori LLM per Ollama su GPU con 16 GB VRAM.

Consiglio: Se desideri che il modello sia disponibile tramite HTTP per più applicazioni, avvia il server con ollama serve e usa il client API invece di sessioni interattive lunghe.

Comando ollama stop

Questo comando ferma il modello specifico in esecuzione.

ollama stop llama3.1:8b-instruct-q8_0

Ollama espelle i modelli automagicamente dopo un certo tempo. Puoi specificare questo tempo, il valore predefinito è 4 minuti. Se non vuoi aspettare il tempo rimanente, potresti voler utilizzare questo comando ollama stop. Puoi anche espellere il modello dalla VRAM chiamando l’endpoint API /generate con il parametro keep_alive=0, vedi di seguito per la descrizione e l’esempio.

Comando ollama ps

ollama ps mostra i modelli e le sessioni attualmente in esecuzione (utile per debuggare “perché la mia VRAM è piena?”).

ollama ps

Un esempio dell’output di ollama ps è il seguente:

NOME           ID              DIMENSIONE     PROCESSORE    CONTESTO    FINO A
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 minuti da ora

Vedi qui sul mio PC che il gpt-oss:20b si adatta molto bene alla mia GPU con 16 GB VRAM e occupa solo 14 GB.

Se eseguo ollama run gpt-oss:120b e poi chiamo ollama ps, l’esito non sarà così positivo: 78% dei layer sono su CPU, e questo è solo con una finestra di contesto di 4096 token. Sarebbe peggio se dovessi aumentare il contesto.

NOME            ID              DIMENSIONE     PROCESSORE          CONTESTO    FINO A
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 minuti da ora

Prestazioni knobs (OLLAMA_NUM_PARALLEL)

Se vedi code o timeout sotto carico, il primo knob da imparare è OLLAMA_NUM_PARALLEL.

  • OLLAMA_NUM_PARALLEL = quanti richieste Ollama esegue in parallelo.
  • Un valore più alto può aumentare il throughput, ma potrebbe aumentare la pressione sulla VRAM e i picchi di latenza.

Esempio rapido:

OLLAMA_NUM_PARALLEL=2 ollama serve

Per una spiegazione completa (inclusi strategie di regolazione e modi di fallimento), vedi:

Rilasciare il modello Ollama dalla VRAM (keep_alive)

Quando un modello è caricato nella VRAM (memoria GPU), rimane lì anche dopo che hai finito di usarlo. Per rilasciare esplicitamente un modello dalla VRAM e liberare la memoria della GPU, puoi inviare una richiesta all’API di Ollama con keep_alive: 0.

  • Rilascia il modello dalla VRAM utilizzando curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Sostituisci MODELNAME con il nome effettivo del tuo modello, ad esempio:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Rilascia il modello dalla VRAM utilizzando Python:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Questo è particolarmente utile quando:

  • Hai bisogno di liberare la memoria della GPU per altre applicazioni
  • Stai eseguendo diversi modelli e vuoi gestire l’utilizzo della VRAM
  • Hai finito di utilizzare un modello grande e vuoi rilasciare le risorse immediatamente

Nota: Il parametro keep_alive controlla quanto tempo (in secondi) un modello rimane caricato in memoria dopo l’ultima richiesta. Impostandolo a 0 si scarica immediatamente il modello dalla VRAM.

Personalizzazione dei modelli Ollama (prompt del sistema, Modelfile)

  • Imposta il prompt del sistema: All’interno dell’interfaccia REPL di Ollama, puoi impostare un prompt del sistema per personalizzare il comportamento del modello:

    >>> /set system Per tutte le domande rispondi in inglese semplice evitando il gergo tecnico il più possibile
    >>> /save ipe
    >>> /bye
    

    Poi, esegui il modello personalizzato:

    ollama run ipe
    

    Questo imposta un prompt del sistema e salva il modello per un uso futuro.

  • Crea un file del modello personalizzato: Crea un file di testo (es. custom_model.txt) con la seguente struttura:

    FROM llama3.1
    SYSTEM [Le tue istruzioni personalizzate qui]
    

    Poi, esegui:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    Questo crea un modello personalizzato in base alle istruzioni nel file".

Utilizzo del comando ollama run con file (sommario, redirect)

  • Sommario del testo da un file:

    ollama run llama3.2 "Sommario del contenuto di questo file in 50 parole." < input.txt
    

    Questo comando sommario il contenuto di input.txt utilizzando il modello specificato.

  • Reindirizza le risposte del modello a un file:

    ollama run llama3.2 "Parlami di energia rinnovabile." > output.txt
    

    Questo comando salva la risposta del modello in output.txt.

Caso d’uso Ollama CLI (generazione testo, analisi)

  • Generazione testo:

    • Sommario di un file di testo lungo:
      ollama run llama3.2 "Sommario del seguente testo:" < long-document.txt
      
    • Generare contenuto:
      ollama run llama3.2 "Scrivi un breve articolo sui benefici dell'uso dell'AI in sanità." > article.txt
      
    • Rispondere a domande specifiche:
      ollama run llama3.2 "Quali sono le ultime tendenze nell'AI e come influenzeranno la sanità?"
      

    .

  • Elaborazione dati e analisi:

    • Classificare il testo in sentimenti positivi, negativi o neutri:
      ollama run llama3.2 "Analizza il sentiment di questa recensione del cliente: 'Il prodotto è fantastico, ma la consegna era lenta.'"
      
    • Categorizzare il testo in categorie predefinite: Utilizza comandi simili per classificare o categorizzare il testo in base a criteri predefiniti.

Utilizzo di Ollama con Python (client e API)

  • Installa la libreria Python Ollama:
    pip install ollama
    
  • Genera testo utilizzando Python:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='cosa è un qubit?')
    print(response['response'])
    
    Questo frammento di codice genera testo utilizzando il modello e il prompt specificati.

Per un’integrazione avanzata con Python, esplora l’uso dell’API Web Search di Ollama in Python, che copre le capacità di ricerca web, chiamata degli strumenti e l’integrazione con i server MCP. Se stai costruendo applicazioni AI, il nostro confronto tra assistenti di coding AI può aiutarti a scegliere gli strumenti giusti per lo sviluppo.

Cerchi un’interfaccia basata su web? Apri WebUI fornisce un’interfaccia auto-hosted con capacità RAG e supporto multi-utente. Per deployment ad alte prestazioni in produzione, considera vLLM come alternativa. Per confrontare Ollama con altre opzioni di hosting locale e cloud degli LLM, vedi LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

Configurazione e gestione

Alternative e confronti

Prestazioni e hardware

Integrazione e sviluppo