L'ascesa degli ASIC per LLM: Perché l'hardware per l'inferenza è importante
I chip specializzati stanno rendendo l'inferenza dell'AI più veloce e economica.
Il futuro dell’AI non riguarda solo modelli più intelligenti modelli – riguarda silicio più intelligente.
L’hardware specializzato per l’inferenza LLM sta guidando una rivoluzione simile a quella del mining del Bitcoin verso i dispositivi ASIC.
Per ulteriori informazioni su throughput, latenza, VRAM e benchmark su diversi runtimes e hardware, consulta Prestazioni LLM: Benchmark, Bottlenecks & Ottimizzazione.
Immaginazione elettrica - Flux testo a immagine LLM.
Perché gli LLM hanno bisogno del loro hardware dedicato
I modelli linguistici di grandi dimensioni hanno trasformato l’AI, ma dietro ogni risposta fluida si nasconde un’enorme quantità di calcolo e traffico di memoria. Con i costi dell’inferenza che diventano dominanti – spesso superando i costi di addestramento nel corso della vita di un modello – l’hardware ottimizzato specificamente per l’inferenza ha senso economico.
L’analogia con il mining del Bitcoin non è casuale. In entrambi i casi, un carico di lavoro molto specifico e ripetitivo trae enormi vantaggi dal silicio personalizzato che elimina tutto ciò che non è essenziale.
Lezioni dal mining del Bitcoin
Il mining del Bitcoin ha attraversato quattro generazioni:
| Era | Hardware | Beneficio chiave | Limitazione |
|---|---|---|---|
| 2015–2020 | GPU (CUDA, ROCm) | Flessibilità | Assorbente di energia, limitato dalla memoria |
| 2021–2023 | TPUs, NPUs | Specializzazione a grana grossa | Ancora orientata all’addestramento |
| 2024–2025 | ASIC per Transformer | Ottimizzato per inferenza a bassa precisione | Limitata generalità |
L’AI sta seguendo un percorso simile. Ogni transizione ha migliorato le prestazioni e l’efficienza energetica di ordini di grandezza.
Tuttavia, a differenza degli ASIC per il Bitcoin (che calcolano solo SHA-256), gli ASIC per l’inferenza devono avere un certo livello di flessibilità. I modelli evolvono, le architetture cambiano e i piani di precisione si migliorano. L’arte è specializzare esattamente abbastanza – fissando i modelli centrali mentre mantenendo l’adattabilità ai margini.
Cosa rende diversa l’inferenza dagli LLM rispetto all’addestramento
I carichi di lavoro di inferenza hanno caratteristiche uniche che l’hardware specializzato può sfruttare:
- La bassa precisione domina – l’aritmetica a 8-bit, 4-bit, addirittura ternaria o binaria funziona bene per l’inferenza
- La memoria è il collo di bottiglia – spostare pesi e cache KV consuma molto più potere del calcolo
- La latenza è più importante del throughput – gli utenti aspettano token in meno di 200 ms
- Massima parallelità delle richieste – migliaia di richieste di inferenza parallele per chip
- Pattern prevedibili – i livelli Transformer sono altamente strutturati e possono essere fissati
- Opportunità di sparsità – i modelli utilizzano sempre di più tecniche di pruning e MoE (Mixture-of-Experts)
Un chip progettato appositamente per l’inferenza può fissare queste ipotesi per ottenere 10–50× migliore prestazione per watt rispetto alle GPU general-purpose.
Chi sta costruendo hardware ottimizzato per gli LLM
Il mercato degli ASIC per l’inferenza degli LLM sta riscaldandosi con giocatori stabiliti e startup ambiziose:
| Azienda | Chip / Piattaforma | Specialità |
|---|---|---|
| Groq | LPU (Language Processing Unit) | Throughput deterministico per LLMs |
| Etched AI | Sohu ASIC | Motore Transformer fissato |
| Tenstorrent | Grayskull / Blackhole | ML generale con mesh ad alta larghezza di banda |
| OpenAI × Broadcom | Custom Inference Chip | Presunta uscita nel 2026 |
| Intel | Crescent Island | GPU Xe3P dedicata all’inferenza con 160GB HBM |
| Cerebras | Wafer-Scale Engine (WSE-3) | Massiva larghezza di banda memoria |
Questi non sono prodotti inesistenti – sono già in uso nei data center. Inoltre, startup come d-Matrix, Rain AI, Mythic e Tenet stanno progettando chip da zero intorno ai pattern aritmetici dei Transformer.
Architettura di un ASIC per l’inferenza dei Transformer
Cosa sembra realmente un chip ottimizzato per i Transformer sotto il cofano?
+--------------------------------------+
| Host Interface |
| (PCIe / CXL / NVLink / Ethernet) |
+--------------------------------------+
| On-chip Interconnect (mesh/ring) |
+--------------------------------------+
| Compute Tiles / Cores |
| — Unità di moltiplicazione matrice densa |
| — ALUs a bassa precisione (int8/int4) |
| — Unità di dequantizzazione / attivazione |
+--------------------------------------+
| On-chip SRAM & KV cache buffers |
| — Pesanti caldi, cache fuse |
+--------------------------------------+
| Pipelines di quantizzazione / dequantizzazione |
+--------------------------------------+
| Scheduler / Controller |
| — Motore di esecuzione grafica statica |
+--------------------------------------+
| Interfaccia DRAM / HBM off-chip |
+--------------------------------------+
Le caratteristiche architetturali principali includono:
- Unità di calcolo – Unità di moltiplicazione matrice densa ottimizzate per operazioni a int8, int4 e ternarie
- SRAM on-chip – Buffer di grandi dimensioni che tengono i pesi caldi e le cache KV, riducendo gli accessi costosi alla DRAM
- Interconnessioni streaming – Topologia mesh che permette una scalabilità efficiente su più chip
- Motori di quantizzazione – Quantizzazione/dequantizzazione in tempo reale tra i livelli
- Pila del compilatore – Traduce i grafi PyTorch/ONNX direttamente in micro-ops specifici per il chip
- Kernel di attenzione fissati – Eliminano l’overhead di control flow per softmax e altre operazioni
La filosofia progettuale è simile a quella degli ASIC per il Bitcoin: ogni transistor serve un carico di lavoro specifico. Nessun silicio sprecato su funzionalità che l’inferenza non necessita.
Benchmark reali: GPU vs. ASIC per l’inferenza
Ecco come l’hardware specializzato per l’inferenza si confronta con le GPU all’avanguardia:
| Modello | Hardware | Throughput (token/s) | Tempo per primo token | Moltiplicatore di prestazioni |
|---|---|---|---|---|
| Llama-2-70B | NVIDIA H100 (8x DGX) | ~80–100 | ~1,7s | Base (1×) |
| Llama-2-70B | Groq LPU | 241–300 | 0,22s | 3–18× più veloce |
| Llama-3.3-70B | Groq LPU | ~276 | ~0,2s | Costante 3× |
| Gemma-7B | Groq LPU | 814 | <0,1s | 5–15× più veloce |
Fonti: Groq.com, ArtificialAnalysis.ai, NVIDIA Developer Blog
Questi numeri illustrano non miglioramenti incrementali, ma guadagni dell’ordine di grandezza sia in throughput che in latenza.
I compromessi critici
La specializzazione è potente, ma comporta sfide:
-
Flessibilità vs. Efficienza. Un ASIC completamente fisso esegue rapidamente i modelli Transformer attuali, ma potrebbe avere difficoltà con le architetture del futuro. Cosa succede quando i meccanismi di attenzione evolvono o emergono nuove famiglie di modelli?
-
Quantizzazione e precisione. La bassa precisione risparmia enormi quantità di energia, ma gestire la degradazione della precisione richiede schemi di quantizzazione sofisticati. Non tutti i modelli si quantizzano facilmente a 4-bit o inferiore.
-
Ecosistema software. L’hardware senza compilatori, kernel e framework robusti è inutile. NVIDIA domina ancora per gran parte grazie all’ecosistema maturato di CUDA. I nuovi produttori di chip devono investire pesantemente nel software.
-
Costi e rischi. Realizzare un chip costa milioni di dollari e richiede 12–24 mesi. Per le startup, è un grosso investimento su ipotesi architetturali che potrebbero non reggere.
Tuttavia, a livello iper-scalabile, anche un miglioramento del 2× nell’efficienza si traduce in miliardi di risparmi. Per i fornitori di cloud che gestiscono milioni di richieste di inferenza al secondo, il silicio personalizzato diventa sempre più irrinunciabile.
A cosa dovrebbe assomigliare un chip ideale per l’inferenza degli LLM
| Funzione | Specificazione ideale |
|---|---|
| Processo | Nodo da 3–5 nm |
| SRAM on-chip | 100MB+ strettamente accoppiato |
| Precisione | Supporto nativo per int8 / int4 / ternario |
| Throughput | 500+ token/sec (modello da 70B) |
| Latenza | <100 ms tempo per primo token |
| Interconnessione | Collegamenti a bassa latenza mesh o ottici |
| Compilatore | Toolchain per microcodice PyTorch/ONNX |
| Energia | <0,3 joule per token |
Il futuro: 2026–2030 e oltre
Si prevede che il panorama hardware per l’inferenza si stratifichi in tre livelli:
-
Chip per l’addestramento. GPU di alto livello come NVIDIA B200 e AMD Instinct MI400 continueranno a dominare l’addestramento grazie alla loro flessibilità FP16/FP8 e alla larghezza di banda della memoria elevata.
-
ASIC per l’inferenza. Acceleratori per Transformer fissati a bassa precisione gestiranno il servizio in produzione su larga scala, ottimizzati per costo ed efficienza.
-
NPUs per l’edge. Piccoli chip ultra-efficienti porteranno LLM quantizzati a smartphone, veicoli, dispositivi IoT e robot, abilitando l’intelligenza su dispositivi senza dipendenza dal cloud.
Oltre all’hardware, vedremo:
- Cluster ibridi – GPU per addestramento flessibile, ASIC per servizio efficiente
- Inferenza come servizio – Principali fornitori di cloud che distribuiscono chip personalizzati (es. AWS Inferentia, Google TPU)
- Co-design hardware-software – Modelli progettati esplicitamente per essere amichevoli all’hardware attraverso sparsità, consapevolezza della quantizzazione e attenzione per blocchi
- Standard aperti – API standardizzate per l’inferenza per evitare il blocco dei fornitori
Pensieri finali
L’“ASIC-izzazione” dell’inferenza AI](https://www.glukhov.org/it/llm-performance/hardware/llm-asics/ “Inferenza AI con ASICs”) è già in atto. Proprio come il mining del Bitcoin è evoluto da CPU a silicio specializzato, la distribuzione dell’AI sta seguendo lo stesso percorso.
La prossima rivoluzione dell’AI non riguarderà modelli più grandi – riguarderà migliori chip. L’hardware ottimizzato per i pattern specifici dell’inferenza Transformer determinerà chi può distribuire l’AI economicamente su larga scala.
Proprio come i minatori di Bitcoin hanno ottimizzato ogni watt sprecato, l’hardware per l’inferenza strizzerà ogni ultimo FLOP per joule. Quando succederà, il vero breakthrough non sarà negli algoritmi – sarà nel silicio che li esegue.
Il futuro dell’AI è inciso nel silicio, transistor per transistor.
Per ulteriori benchmark, scelte hardware e ottimizzazione delle prestazioni, controlla il nostro LLM Performance: Benchmarks, Bottlenecks & Optimization hub.
Link utili
- Benchmark ufficiali di Groq
- Artificial Analysis - Classifica delle prestazioni LLM
- Breve tecnico su NVIDIA H100
- Annuncio di Etched AI - ASIC Transformer
- Wafer-Scale Engine di Cerebras
- Prezzi dei modelli NVidia RTX 5080 e RTX 5090 in Australia - Ottobre 2025
- Prestazioni LLM e PCIe Lanes: Considerazioni chiave
- Test di velocità dei modelli linguistici di grandi dimensioni
- Confronto tra specifiche NVidia GPU adatte all’AI
- Il Quadro RTX 5880 Ada 48GB è buono?