Q: Come posso verificare l’utilizzo della VRAM e del processore/CPU/GPU di Ollama?

Esegui ollama ps per le statistiche specifiche per modello e nvidia-smi per la memoria GPU. Questi mostrano la VRAM allocata e la suddivisione tra CPU e GPU per il modello in esecuzione.

Question 1

Come Ollama alloca la VRAM per i modelli?

Accepted Answer

Ollama carica i livelli del modello nella VRAM della GPU quando possibile. Le versioni più recenti utilizzano un piano di allocazione aggiornato che può assegnare più VRAM per massimizzare l&rsquo;utilizzo della GPU, ma su alcuni hardware e modelli la suddivisione tra CPU e GPU potrebbe cambiare e non sempre migliorare.

Question 2

E se un modello non entra nella VRAM della mia GPU?

Accepted Answer

Ollama può spostare alcuni strati sulla CPU e mantenere il resto sulla GPU. La suddivisione tra CPU e GPU dipende dalla VRAM disponibile, dalla dimensione del modello e dalla versione di Ollama. Un maggior spostamento sulla CPU comporta generalmente un&rsquo;inferenza più lenta.

Question 3

L&rsquo;uso del nuovo sistema di pianificazione dei modelli di Ollama consuma più VRAM?

Accepted Answer

In alcuni setup la nuova pianificazione assegna più VRAM e mantiene più strati sulla GPU, il che può aumentare i token al secondo. In altri setup (ad esempio 16 GB VRAM con modelli grandi) il comportamento può differire e una maggiore quantità di carico potrebbe passare alla CPU.

Question 4

Come posso verificare l&rsquo;utilizzo della VRAM e del processore/CPU/GPU di Ollama?

Accepted Answer

Esegui ollama ps per le statistiche specifiche per modello e nvidia-smi per la memoria GPU. Questi mostrano la VRAM allocata e la suddivisione tra CPU e GPU per il modello in esecuzione.

Question 5

Dove posso trovare maggiori informazioni sulle prestazioni e sui benchmark degli LLM?

Accepted Answer

Il nostro hub sulle prestazioni del modello linguistico di grandi dimensioni (LLM) include throughput vs latenza, limiti di VRAM, richieste parallele e benchmark su diversi runtimes e hardware.

Modello	VRAM allocata versione vecchia	CPU/GPU versione vecchia	VRAM allocata versione nuova	CPU/GPU versione nuova
mistral-small3.2:24b	14489MiB	41%/59%	14249MiB	44%/56%
qwen3:30b-a3b	15065MiB	21%/79%	14867MiB	21%/79%
gemma3:27b	13771MiB	28%/72%	14817MiB	29%/71%
qwen3:32b	14676MiB	30%/70%	15139MiB	32%/68%

Allocazione della memoria e pianificazione del modello nella nuova versione di Ollama - v0.12.1

TL;DR

Dati di confronto dettagliati

Link utili