Q: Perché l’inferenza di Ollama è lenta quando il modello utilizza il processore CPU?

L’offload della CPU è molto più lento rispetto a un’utilizzo completo della GPU. Anche con più thread, la differenza è significativa (ad esempio, cifre singole rispetto a decine di token al secondo). Per un’inferenza più veloce, utilizza un modello più piccolo o quantizzato che entra nella VRAM, o una GPU con più VRAM.

Question 1

Come Ollama utilizza i core CPU quando il modello non entra nella VRAM?

Accepted Answer

Ollama trasferisce alcune layer alla CPU. È possibile impostare il numero di thread utilizzati tramite l&rsquo;opzione num_thread nell&rsquo;API (ad esempio, nella richiesta generate). L&rsquo;uso di più thread (ad esempio, 16) può migliorare del 10–14% il numero di token al secondo rispetto a un numero basso di thread, ma un numero troppo elevato può compromettere le prestazioni.

Question 2

Limita l&rsquo;utilizzo del processore OLLAMA_NUM_THREADS in Ollama?

Accepted Answer

OLLAMA_NUM_THREADS è una variabile ambiente destinata a limitare il numero di thread. In alcuni setup potrebbe non essere rispettata e Ollama potrebbe comunque utilizzare molti core. L&rsquo;opzione num_thread per richiesta nell&rsquo;API spesso ha un effetto più chiaro.

Question 3

Qual è il miglior valore di num_thread per l&rsquo;offload della CPU su Ollama?

Accepted Answer

Dipende dalla tua CPU. Nei test con le prestazioni e i core efficienti di Intel, valori come 12–16 thread spesso hanno dato il miglior numero di token al secondo per i layer offloadati. L&rsquo;uso di tutti i core fisici (ad esempio 20) a volte ha ridotto le prestazioni. È consigliabile effettuare un tuning per macchina.

Question 4

Perché l&rsquo;inferenza di Ollama è lenta quando il modello utilizza il processore CPU?

Accepted Answer

L&rsquo;offload della CPU è molto più lento rispetto a un&rsquo;utilizzo completo della GPU. Anche con più thread, la differenza è significativa (ad esempio, cifre singole rispetto a decine di token al secondo). Per un&rsquo;inferenza più veloce, utilizza un modello più piccolo o quantizzato che entra nella VRAM, o una GPU con più VRAM.

Question 5

Dove posso trovare maggiori informazioni sulle prestazioni e sui benchmark degli LLM?

Accepted Answer

Il nostro hub sulle prestazioni del modello linguistico di grandi dimensioni (LLM) include throughput vs latenza, limiti di VRAM, richieste parallele e benchmark su diversi runtimes e hardware.

Test: Come Ollama utilizza le prestazioni della CPU Intel e i core efficienti

Parametro di configurazione OLLAMA_NUM_THREADS

Opzione num_thread

Conclusione

Link utili