Test di velocità dei modelli linguistici di grandi dimensioni
Verifichiamo la velocità degli LLM su GPU rispetto al CPU
Confronto della velocità di previsione di diverse versioni degli LLM (Large Language Models): llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) su CPU e GPU.
Per ulteriori informazioni sulla throughput, la latenza, la VRAM e i benchmark su diversi runtimes e hardware, consulta LLM Performance: Benchmarks, Bottlenecks & Optimization.

Sto utilizzando lo stesso testo di esempio del test precedente in cui ho confrontato la capacità di rilevamento delle fallacie logiche di questi LLM.
Guarda, a prima vista, tutto sembra perfettamente ragionevole:
troppi persone, non abbastanza case.
Ma non è mai così semplice,
come dovrebbe sapere un ex ministro degli affari domestici.
TL;DR
Gli LLM su GPU funzionano approssimativamente 20 volte più velocemente, ma su CPU sono comunque abbastanza gestibili.
Descrizione della configurazione del test
Ho eseguito i seguenti Large Language Models su due PC:
- Vecchio con CPU a 4 core 4th gen i5 (i5-4460 - prodotto nel 2014) e
- Nuovo con GPU RTX 4080 (prodotto nel 2022) con 9728 CUDA cores e 304 tensor cores.
Risultati del test
Ecco i risultati:
| Model_Name_Version__________ | GPU RAM | GPU duration | GPU Perfor-mance | Main RAM | CPU Duration | CPU Perfor-mance | Perfor-mance diffe-rence |
|---|---|---|---|---|---|---|---|
| llama3:8b-instruct-q4_0 | 5,8GB | 2,1s | 80t/s | 4,7GB | 49s | 4,6t/s | 17,4x |
| llama3:8b-instruct-q8_0 | 9,3GB | 3,4s | 56t/s | 8,3GB | 98s | 2,7t/s | 20,7x |
| phi3:3.8b | 4,5GB | 3,6s | 98t/s | 3,0GB | 83s | 7,2t/s | 13,6x |
| phi3:3.8b-mini-4k-instruct-q8_0 | 6,0GB | 6,9s | 89t/s | 4,6GB | 79s | 5,3t/s | 16,8x |
| phi3:3.8b-mini-instruct-4k-fp16 | 9,3GB | 4,2s | 66t/s | 7,9GB | 130s | 2,9t/s | 22,8x |
| phi3:14b | 9,6GB | 4,2s | 55t/s | 7,9GB | 96s | 2,7t/s | 21,2x |
| phi3:14b-medium-4k-instruct-q6_K | 12,5GB | 8,9s | 42t/s | 11,1GB | 175s | 1,9t/s | 21,8x |
| mistral:7b-instruct-v0.3-q4_0 | 5,4GB | 2,1s | 87t/s | 4,1GB | 36s | 4,9t/s | 17,8x |
| mistral:7b-instruct-v0.3-q8_0 | 8,7GB | 2,3s | 61t/s | 7,5GB | 109s | 2,9t/s | 21,0x |
| gemma:7b-instruct-v1.1-q4_0 | 7,4GB | 1,8s | 82t/s | 7,5GB | 25s | 4,4t/s | 18,6x |
| gemma:7b-instruct-v1.1-q6_K | 9,1GB | 1,6s | 66t/s | 7,5GB | 40s | 3,0t/s | 22,0x |
Le prestazioni del modello sono indicate nelle colonne “GPU performance” e “CPU performance”.
Il guadagno di velocità passando dalla CPU alla GPU è indicato nella colonna “Performance difference”.
Non dovremmo prestare molta attenzione alle colonne “duration” - questo indicatore dipende dalle prestazioni del modello e dalla lunghezza del testo prodotto. Tutti i modelli producono testi di lunghezza diversa. Queste colonne danno solo un’indicazione del tempo di attesa.
Conclusione 1 - Differenza di prestazioni
La differenza di velocità tra GPU e CPU non è così grande come si potrebbe aspettare.
Seriamente? Tutte le legioni (10k+) di core Ada Tensor & Cuda vs 4 spartani Haswell, e solo 20 volte la differenza. Pensavo che fosse 100-1000 volte.
Conclusione 2 - Costo per previsione è quasi lo stesso
- Questo nuovo PC ha un prezzo di circa 3500AUD
- Quell’antico PC costa probabilmente 200AUD
Dal sito di PCPCCaseGear:

Da eBay (potresti voler aggiungere 8GB di RAM in più per arrivare a 16GB totali - quindi arrotondiamo a 200AUD):

Potresti averne bisogno di 20 di quei vecchi PC per ottenere la stessa throughput, quindi 200AUD * 20 = 4000AUD.
Conclusione 3 - Legge di Moore
Legge di Moore implica che le prestazioni dei computer raddoppino ogni due anni.
Intel ha iniziato la produzione dell’i5-4460 nel 2014. Nvidia ha iniziato la produzione di una delle RTX 4080 nel 2022. L’aumento di prestazioni previsto dovrebbe essere ~16 volte.
Direi che la legge di Moore funziona ancora.
Ma tieni presente che il DELL 9020 era una volta un workstation di base, e il PC con RTX 4080 è adesso un PC avanzato per grafica/gaming. Classe di peso leggermente diversa.
Per ulteriori benchmark, scelte hardware e ottimizzazione delle prestazioni, consulta il nostro LLM Performance: Benchmarks, Bottlenecks & Optimization.
Link utili
- Prestazioni degli LLM e canali PCIe: Considerazioni chiave
- Rilevamento delle fallacie logiche con gli LLM
- App Android per rilevatore di fallacie logiche: https://www.logical-fallacy.com/articles/detector-android-app/
- Spostare i modelli Ollama su un diverso disco o cartella
- Autohosting di Perplexica - con Ollama
- Come Ollama gestisce le richieste parallele
- Test: Come Ollama utilizza le prestazioni della CPU Intel e i core efficienti
- Fornitori di LLM in cloud
- Problemi di degradazione nei processori Intel delle 13e e 14e generazione
- Il Quadro RTX 5880 Ada 48GB è buono?