Quanto sono più veloci i modelli linguistici di grandi dimensioni (LLM) sul GPU rispetto al CPU?

Nelle esecuzioni comparative, le GPU hanno fornito un throughput (token al secondo) circa 15–23 volte superiore rispetto a un processore CPU a 4 core per gli stessi modelli. L’aumento esatto della velocità dipende dalla dimensione del modello e dalla quantizzazione.

Cosa influisce sulla velocità di inferenza degli LLM?

L’hardware (GPU vs CPU e VRAM), la dimensione del modello (numero di parametri) e la quantizzazione (q4, q6, q8, fp16) influiscono tutti sulla velocità di elaborazione dei token al secondo. I modelli più piccoli o maggiormente quantizzati tendono a funzionare più velocemente, ma potrebbero sacrificare la qualità.

Qual è il throughput dei token che posso aspettarmi dagli LLM su una GPU?

Su una GPU moderna, i modelli con 7–8 miliardi di parametri raggiungono spesso circa 40–98 token al secondo, a seconda della quantizzazione. I modelli più grandi utilizzano più VRAM e potrebbero funzionare più lentamente.

È pratico eseguire LLM su CPU?

Sì per un utilizzo leggero. L’inferenza della CPU è molto più lenta (pochi token al secondo in molti test), ma evita i costi della GPU e può essere accettabile per compiti occasionali o in batch.

Dove posso trovare maggiori informazioni sulle prestazioni e sui benchmark degli LLM?

Il nostro hub sulle prestazioni del modello linguistico pesante (LLM) include throughput vs latenza, limiti di VRAM, richieste parallele e benchmark su diversi runtimes e hardware.

Test di velocità dei modelli linguistici di grandi dimensioni

Verifichiamo la velocità degli LLM su GPU rispetto al CPU

Indice

Confronto della velocità di previsione di diverse versioni degli LLM (Large Language Models): llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) su CPU e GPU.

Per ulteriori informazioni sulla throughput, la latenza, la VRAM e i benchmark su diversi runtimes e hardware, consulta LLM Performance: Benchmarks, Bottlenecks & Optimization.

Test della velocità dei modelli linguistici di grandi dimensioni per rilevare fallacie logiche - cronometro

Sto utilizzando lo stesso testo di esempio del test precedente in cui ho confrontato la capacità di rilevamento delle fallacie logiche di questi LLM.

Guarda, a prima vista, tutto sembra perfettamente ragionevole:
troppi persone, non abbastanza case.

Ma non è mai così semplice,
come dovrebbe sapere un ex ministro degli affari domestici.

TL;DR

Gli LLM su GPU funzionano approssimativamente 20 volte più velocemente, ma su CPU sono comunque abbastanza gestibili.

Descrizione della configurazione del test

Ho eseguito i seguenti Large Language Models su due PC:

Vecchio con CPU a 4 core 4th gen i5 (i5-4460 - prodotto nel 2014) e
Nuovo con GPU RTX 4080 (prodotto nel 2022) con 9728 CUDA cores e 304 tensor cores.

Risultati del test

Ecco i risultati:

Model_Name_Version__________	GPU RAM	GPU duration	GPU Perfor-mance	Main RAM	CPU Duration	CPU Perfor-mance	Perfor-mance diffe-rence
llama3:8b-instruct-q4_0	5,8GB	2,1s	80t/s	4,7GB	49s	4,6t/s	17,4x
llama3:8b-instruct-q8_0	9,3GB	3,4s	56t/s	8,3GB	98s	2,7t/s	20,7x
phi3:3.8b	4,5GB	3,6s	98t/s	3,0GB	83s	7,2t/s	13,6x
phi3:3.8b-mini-4k-instruct-q8_0	6,0GB	6,9s	89t/s	4,6GB	79s	5,3t/s	16,8x
phi3:3.8b-mini-instruct-4k-fp16	9,3GB	4,2s	66t/s	7,9GB	130s	2,9t/s	22,8x
phi3:14b	9,6GB	4,2s	55t/s	7,9GB	96s	2,7t/s	21,2x
phi3:14b-medium-4k-instruct-q6_K	12,5GB	8,9s	42t/s	11,1GB	175s	1,9t/s	21,8x
mistral:7b-instruct-v0.3-q4_0	5,4GB	2,1s	87t/s	4,1GB	36s	4,9t/s	17,8x
mistral:7b-instruct-v0.3-q8_0	8,7GB	2,3s	61t/s	7,5GB	109s	2,9t/s	21,0x
gemma:7b-instruct-v1.1-q4_0	7,4GB	1,8s	82t/s	7,5GB	25s	4,4t/s	18,6x
gemma:7b-instruct-v1.1-q6_K	9,1GB	1,6s	66t/s	7,5GB	40s	3,0t/s	22,0x

Le prestazioni del modello sono indicate nelle colonne “GPU performance” e “CPU performance”.

Il guadagno di velocità passando dalla CPU alla GPU è indicato nella colonna “Performance difference”.

Non dovremmo prestare molta attenzione alle colonne “duration” - questo indicatore dipende dalle prestazioni del modello e dalla lunghezza del testo prodotto. Tutti i modelli producono testi di lunghezza diversa. Queste colonne danno solo un’indicazione del tempo di attesa.

Conclusione 1 - Differenza di prestazioni

La differenza di velocità tra GPU e CPU non è così grande come si potrebbe aspettare.

Seriamente? Tutte le legioni (10k+) di core Ada Tensor & Cuda vs 4 spartani Haswell, e solo 20 volte la differenza. Pensavo che fosse 100-1000 volte.

Conclusione 2 - Costo per previsione è quasi lo stesso

Questo nuovo PC ha un prezzo di circa 3500AUD
Quell’antico PC costa probabilmente 200AUD

Dal sito di PCPCCaseGear:

pc con RTX 4080super prezzo

Da eBay (potresti voler aggiungere 8GB di RAM in più per arrivare a 16GB totali - quindi arrotondiamo a 200AUD):

Dell 9020 da eBay

Potresti averne bisogno di 20 di quei vecchi PC per ottenere la stessa throughput, quindi 200AUD * 20 = 4000AUD.

Conclusione 3 - Legge di Moore

Legge di Moore implica che le prestazioni dei computer raddoppino ogni due anni.

Intel ha iniziato la produzione dell’i5-4460 nel 2014. Nvidia ha iniziato la produzione di una delle RTX 4080 nel 2022. L’aumento di prestazioni previsto dovrebbe essere ~16 volte.

Direi che la legge di Moore funziona ancora.

Ma tieni presente che il DELL 9020 era una volta un workstation di base, e il PC con RTX 4080 è adesso un PC avanzato per grafica/gaming. Classe di peso leggermente diversa.

Per ulteriori benchmark, scelte hardware e ottimizzazione delle prestazioni, consulta il nostro LLM Performance: Benchmarks, Bottlenecks & Optimization.