Test di velocità dei modelli linguistici di grandi dimensioni

Verifichiamo la velocità degli LLM su GPU rispetto al CPU

Indice

Confronto della velocità di previsione di diverse versioni di LLM: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) su CPU e GPU.

Velocità di test dei modelli linguistici di grandi dimensioni nel rilevamento degli errori logici - cronometro

Sto utilizzando lo stesso testo di campione di quello precedente dove ho confrontato la qualità di rilevamento degli errori logici di questi LLM.

Guarda, a prima vista, tutto sembra perfettamente ragionevole:
troppi persone, non abbastanza case.

Ma non è mai così semplice,
come dovrebbe sapere un ex ministro degli affari domestici.

TL;DR

Sui GPU gli LLM vengono eseguiti approssimativamente 20 volte più velocemente, ma su CPU sono comunque abbastanza gestibili.

Descrizione dell’ambiente di test

Ho eseguito i seguenti modelli linguistici di grandi dimensioni su due PC

Vecchio con CPU a 4 core 4th gen i5 (i5-4460 - prodotto nel 2014) e
Nuovo con GPU RTX 4080 (prodotto nel 2022) con 9728 CUDA cores e 304 tensor cores.

Risultati del test

Ecco i risultati:

Model_Name_Version__________	RAM GPU	Durata GPU	Prestazioni GPU	RAM principale	Durata CPU	Prestazioni CPU	Differenza prestazioni
llama3:8b-instruct-q4_0	5,8GB	2,1s	80t/s	4,7GB	49s	4,6t/s	17,4x
llama3:8b-instruct-q8_0	9,3GB	3,4s	56t/s	8,3GB	98s	2,7t/s	20,7x
phi3:3.8b	4,5GB	3,6s	98t/s	3,0GB	83s	7,2t/s	13,6x
phi3:3.8b-mini-4k-instruct-q8_0	6,0GB	6,9s	89t/s	4,6GB	79s	5,3t/s	16,8x
phi3:3.8b-mini-instruct-4k-fp16	9,3GB	4,2s	66t/s	7,9GB	130s	2,9t/s	22,8x
phi3:14b	9,6GB	4,2s	55t/s	7,9GB	96s	2,7t/s	21,2x
phi3:14b-medium-4k-instruct-q6_K	12,5GB	8,9s	42t/s	11,1GB	175s	1,9t/s	21,8x
mistral:7b-instruct-v0.3-q4_0	5,4GB	2,1s	87t/s	4,1GB	36s	4,9t/s	17,8x
mistral:7b-instruct-v0.3-q8_0	8,7GB	2,3s	61t/s	7,5GB	109s	2,9t/s	21,0x
gemma:7b-instruct-v1.1-q4_0	7,4GB	1,8s	82t/s	7,5GB	25s	4,4t/s	18,6x
gemma:7b-instruct-v1.1-q6_K	9,1GB	1,6s	66t/s	7,5GB	40s	3,0t/s	22,0x

Le prestazioni del modello sono indicate nelle colonne “Prestazioni GPU” e “Prestazioni CPU”.

Il guadagno di velocità passando dalla CPU alla GPU è indicato nella colonna “Differenza prestazioni”.

Non dovremmo prestare molta attenzione alle colonne “durata” - questo indicatore dipende dalle prestazioni del modello e dalla lunghezza del testo prodotto. Tutti i modelli producono testi di lunghezza diversa. Queste colonne forniscono solo un’indicazione del tempo di attesa.

Conclusione 1 - Differenza di prestazioni

La differenza di velocità tra GPU e CPU non è così grande come si potrebbe aspettare.

Serio? Tutte le legioni (10k+) di core Ada Tensor & Cuda contro 4 spartani Haswell, e solo 20 volte la differenza. Pensavo fosse 100-1000 volte.

Conclusione 2 - Costo per previsione è quasi lo stesso

questo nuovo PC ha un prezzo di circa 3500AUD
quel vecchio PC ora costa probabilmente 200AUD

Dallo sito PCCCaseGear:

pc con RTX 4080super prezzo

Da ebay (potresti voler aggiungere 8GB di RAM extra per arrivare a 16GB totali - quindi arrotondiamo a 200AUD):

Dell 9020 da ebay

Potresti averne bisogno di 20 di quei vecchi pc per ottenere la stessa capacità di elaborazione, quindi 200AUD * 20 = 4000AUD.

Conclusione 3 - Legge di Moore

Legge di Moore implica che le prestazioni dei computer raddoppino ogni due anni.

Intel ha iniziato la produzione dell’i5-4460 nel 2014. Nvidia ha iniziato la produzione di una delle RTX 4080 nel 2022. L’aumento di prestazioni previsto dovrebbe essere ~16 volte.

Direi che la legge di Moore funziona ancora.

Ma tieni presente che il DELL 9020 era un tempo un workstation di base, e il PC con RTX 4080 è ora un PC avanzato per grafica/gaming. Leggermente diversa classe di peso.