Cos’è un ASIC per LLM?

Un ASIC (Application-Specific Integrated Circuit) per un LLM è un chip specializzato progettato appositamente per eseguire carichi di lavoro di inferenza su modelli linguistici di grandi dimensioni, ottimizzato per l’aritmetica a bassa precisione, la larghezza di banda della memoria e le operazioni sensibili alla latenza, piuttosto che per il calcolo generico fornito dalle GPU.

Quanto più veloci sono gli ASIC per l’inferenza rispetto alle GPU?

Gli ASIC moderni per l’inferenza, come l’LPU di Groq, possono fornire un throughput 3-18 volte più veloce e un tempo per il primo token fino a 10 volte più rapido rispetto ai GPU di alto livello come l’H100 di NVIDIA. Inoltre, raggiungono un rendimento energetico 10-50 volte superiore, portando a significativi risparmi di costo su larga scala.

Perché non possiamo semplicemente utilizzare le GPU per l’inferenza dell’AI?

Sebbene le GPU funzionino bene per l’inferenza, sono sovradimensionate per il compito. Supportano l’aritmetica ad alta precisione (FP32/FP16), mentre l’inferenza spesso necessita solo di 8 bit o 4 bit, sprecano potenza su funzionalità non utilizzate e non sono ottimizzate per i carichi di lavoro dominati da larghezza di banda della memoria tipici dei modelli transformer.

Quali sono gli svantaggi dell’utilizzo di chip dedicati all’inferenza?

I principali compromessi sono la flessibilità (gli ASIC potrebbero avere difficoltà con nuove architetture di modello), i costi elevati di progettazione iniziale (decine di milioni per lo sviluppo del chip) e la dipendenza dagli ecosistemi software (compilatori e framework). Rappresentano inoltre una scommessa a lungo termine su specifici pattern architettonici.

Chi sta costruendo questi ASIC per l’inferenza?

I principali attori includono Groq (LPU), Etched AI (Sohu), Tenstorrent (Grayskull/Blackhole), Intel (Crescent Island), Cerebras (WSE-3) e collaborazioni rumors come quella tra OpenAI e Broadcom. Numerose startup, tra cui d-Matrix, Rain AI e Mythic, stanno entrando nel settore.

Sosteranno i ASIC per l’inferenza i GPU completamente?

No. Il futuro probabilmente vedrà il predominio di cluster ibridi in cui le GPU gestiscono carichi di lavoro flessibili per l’addestramento, mentre le ASIC eseguono inferences su larga scala per la produzione. Le GPU rimarranno essenziali per la ricerca, lo sviluppo dei modelli e l’addestramento, mentre le ASIC ottimizzeranno l’efficienza del deployment.

Dove posso trovare maggiori informazioni sulle prestazioni e sui benchmark degli LLM?

Il nostro hub sulle prestazioni del modello linguistico di grandi dimensioni (LLM) include throughput vs latenza, limiti di VRAM, richieste parallele e benchmark su diversi runtimes e hardware.

L'ascesa degli ASIC per LLM: Perché l'hardware per l'inferenza è importante

I chip specializzati stanno rendendo l'inferenza dell'AI più veloce e economica.

Indice

Il futuro dell’AI non riguarda solo modelli più intelligenti modelli – riguarda silicio più intelligente.
L’hardware specializzato per l’inferenza LLM sta guidando una rivoluzione simile a quella del mining del Bitcoin verso i dispositivi ASIC.

Per ulteriori informazioni su throughput, latenza, VRAM e benchmark su diversi runtimes e hardware, consulta Prestazioni LLM: Benchmark, Bottlenecks & Ottimizzazione.

Circuito elettrico ASIC LLM Immaginazione elettrica - Flux testo a immagine LLM.

Perché gli LLM hanno bisogno del loro hardware dedicato

I modelli linguistici di grandi dimensioni hanno trasformato l’AI, ma dietro ogni risposta fluida si nasconde un’enorme quantità di calcolo e traffico di memoria. Con i costi dell’inferenza che diventano dominanti – spesso superando i costi di addestramento nel corso della vita di un modello – l’hardware ottimizzato specificamente per l’inferenza ha senso economico.

L’analogia con il mining del Bitcoin non è casuale. In entrambi i casi, un carico di lavoro molto specifico e ripetitivo trae enormi vantaggi dal silicio personalizzato che elimina tutto ciò che non è essenziale.

Lezioni dal mining del Bitcoin

Il mining del Bitcoin ha attraversato quattro generazioni:

Era	Hardware	Beneficio chiave	Limitazione
2015–2020	GPU (CUDA, ROCm)	Flessibilità	Assorbente di energia, limitato dalla memoria
2021–2023	TPUs, NPUs	Specializzazione a grana grossa	Ancora orientata all’addestramento
2024–2025	ASIC per Transformer	Ottimizzato per inferenza a bassa precisione	Limitata generalità

L’AI sta seguendo un percorso simile. Ogni transizione ha migliorato le prestazioni e l’efficienza energetica di ordini di grandezza.

Tuttavia, a differenza degli ASIC per il Bitcoin (che calcolano solo SHA-256), gli ASIC per l’inferenza devono avere un certo livello di flessibilità. I modelli evolvono, le architetture cambiano e i piani di precisione si migliorano. L’arte è specializzare esattamente abbastanza – fissando i modelli centrali mentre mantenendo l’adattabilità ai margini.

Cosa rende diversa l’inferenza dagli LLM rispetto all’addestramento

I carichi di lavoro di inferenza hanno caratteristiche uniche che l’hardware specializzato può sfruttare:

La bassa precisione domina – l’aritmetica a 8-bit, 4-bit, addirittura ternaria o binaria funziona bene per l’inferenza
La memoria è il collo di bottiglia – spostare pesi e cache KV consuma molto più potere del calcolo
La latenza è più importante del throughput – gli utenti aspettano token in meno di 200 ms
Massima parallelità delle richieste – migliaia di richieste di inferenza parallele per chip
Pattern prevedibili – i livelli Transformer sono altamente strutturati e possono essere fissati
Opportunità di sparsità – i modelli utilizzano sempre di più tecniche di pruning e MoE (Mixture-of-Experts)

Un chip progettato appositamente per l’inferenza può fissare queste ipotesi per ottenere 10–50× migliore prestazione per watt rispetto alle GPU general-purpose.

Chi sta costruendo hardware ottimizzato per gli LLM

Il mercato degli ASIC per l’inferenza degli LLM sta riscaldandosi con giocatori stabiliti e startup ambiziose:

Azienda	Chip / Piattaforma	Specialità
Groq	LPU (Language Processing Unit)	Throughput deterministico per LLMs
Etched AI	Sohu ASIC	Motore Transformer fissato
Tenstorrent	Grayskull / Blackhole	ML generale con mesh ad alta larghezza di banda
OpenAI × Broadcom	Custom Inference Chip	Presunta uscita nel 2026
Intel	Crescent Island	GPU Xe3P dedicata all’inferenza con 160GB HBM
Cerebras	Wafer-Scale Engine (WSE-3)	Massiva larghezza di banda memoria

Questi non sono prodotti inesistenti – sono già in uso nei data center. Inoltre, startup come d-Matrix, Rain AI, Mythic e Tenet stanno progettando chip da zero intorno ai pattern aritmetici dei Transformer.

Architettura di un ASIC per l’inferenza dei Transformer

Cosa sembra realmente un chip ottimizzato per i Transformer sotto il cofano?

+--------------------------------------+
|         Host Interface               |
|   (PCIe / CXL / NVLink / Ethernet)   |
+--------------------------------------+
|  On-chip Interconnect (mesh/ring)    |
+--------------------------------------+
|  Compute Tiles / Cores               |
|   — Unità di moltiplicazione matrice densa      |
|   — ALUs a bassa precisione (int8/int4)   |
|   — Unità di dequantizzazione / attivazione       |
+--------------------------------------+
|  On-chip SRAM & KV cache buffers     |
|   — Pesanti caldi, cache fuse        |
+--------------------------------------+
|  Pipelines di quantizzazione / dequantizzazione    |
+--------------------------------------+
|  Scheduler / Controller              |
|   — Motore di esecuzione grafica statica    |
+--------------------------------------+
|  Interfaccia DRAM / HBM off-chip       |
+--------------------------------------+

Le caratteristiche architetturali principali includono:

Unità di calcolo – Unità di moltiplicazione matrice densa ottimizzate per operazioni a int8, int4 e ternarie
SRAM on-chip – Buffer di grandi dimensioni che tengono i pesi caldi e le cache KV, riducendo gli accessi costosi alla DRAM
Interconnessioni streaming – Topologia mesh che permette una scalabilità efficiente su più chip
Motori di quantizzazione – Quantizzazione/dequantizzazione in tempo reale tra i livelli
Pila del compilatore – Traduce i grafi PyTorch/ONNX direttamente in micro-ops specifici per il chip
Kernel di attenzione fissati – Eliminano l’overhead di control flow per softmax e altre operazioni

La filosofia progettuale è simile a quella degli ASIC per il Bitcoin: ogni transistor serve un carico di lavoro specifico. Nessun silicio sprecato su funzionalità che l’inferenza non necessita.

Benchmark reali: GPU vs. ASIC per l’inferenza

Ecco come l’hardware specializzato per l’inferenza si confronta con le GPU all’avanguardia:

Modello	Hardware	Throughput (token/s)	Tempo per primo token	Moltiplicatore di prestazioni
Llama-2-70B	NVIDIA H100 (8x DGX)	~80–100	~1,7s	Base (1×)
Llama-2-70B	Groq LPU	241–300	0,22s	3–18× più veloce
Llama-3.3-70B	Groq LPU	~276	~0,2s	Costante 3×
Gemma-7B	Groq LPU	814	<0,1s	5–15× più veloce

Fonti: Groq.com, ArtificialAnalysis.ai, NVIDIA Developer Blog

Questi numeri illustrano non miglioramenti incrementali, ma guadagni dell’ordine di grandezza sia in throughput che in latenza.

I compromessi critici

La specializzazione è potente, ma comporta sfide:

Flessibilità vs. Efficienza. Un ASIC completamente fisso esegue rapidamente i modelli Transformer attuali, ma potrebbe avere difficoltà con le architetture del futuro. Cosa succede quando i meccanismi di attenzione evolvono o emergono nuove famiglie di modelli?
Quantizzazione e precisione. La bassa precisione risparmia enormi quantità di energia, ma gestire la degradazione della precisione richiede schemi di quantizzazione sofisticati. Non tutti i modelli si quantizzano facilmente a 4-bit o inferiore.
Ecosistema software. L’hardware senza compilatori, kernel e framework robusti è inutile. NVIDIA domina ancora per gran parte grazie all’ecosistema maturato di CUDA. I nuovi produttori di chip devono investire pesantemente nel software.
Costi e rischi. Realizzare un chip costa milioni di dollari e richiede 12–24 mesi. Per le startup, è un grosso investimento su ipotesi architetturali che potrebbero non reggere.

Tuttavia, a livello iper-scalabile, anche un miglioramento del 2× nell’efficienza si traduce in miliardi di risparmi. Per i fornitori di cloud che gestiscono milioni di richieste di inferenza al secondo, il silicio personalizzato diventa sempre più irrinunciabile.

A cosa dovrebbe assomigliare un chip ideale per l’inferenza degli LLM

Funzione	Specificazione ideale
Processo	Nodo da 3–5 nm
SRAM on-chip	100MB+ strettamente accoppiato
Precisione	Supporto nativo per int8 / int4 / ternario
Throughput	500+ token/sec (modello da 70B)
Latenza	<100 ms tempo per primo token
Interconnessione	Collegamenti a bassa latenza mesh o ottici
Compilatore	Toolchain per microcodice PyTorch/ONNX
Energia	<0,3 joule per token

Il futuro: 2026–2030 e oltre

Si prevede che il panorama hardware per l’inferenza si stratifichi in tre livelli:

Chip per l’addestramento. GPU di alto livello come NVIDIA B200 e AMD Instinct MI400 continueranno a dominare l’addestramento grazie alla loro flessibilità FP16/FP8 e alla larghezza di banda della memoria elevata.
ASIC per l’inferenza. Acceleratori per Transformer fissati a bassa precisione gestiranno il servizio in produzione su larga scala, ottimizzati per costo ed efficienza.
NPUs per l’edge. Piccoli chip ultra-efficienti porteranno LLM quantizzati a smartphone, veicoli, dispositivi IoT e robot, abilitando l’intelligenza su dispositivi senza dipendenza dal cloud.

Oltre all’hardware, vedremo:

Cluster ibridi – GPU per addestramento flessibile, ASIC per servizio efficiente
Inferenza come servizio – Principali fornitori di cloud che distribuiscono chip personalizzati (es. AWS Inferentia, Google TPU)
Co-design hardware-software – Modelli progettati esplicitamente per essere amichevoli all’hardware attraverso sparsità, consapevolezza della quantizzazione e attenzione per blocchi
Standard aperti – API standardizzate per l’inferenza per evitare il blocco dei fornitori

Pensieri finali

L’“ASIC-izzazione” dell’inferenza AI](https://www.glukhov.org/it/llm-performance/hardware/llm-asics/ “Inferenza AI con ASICs”) è già in atto. Proprio come il mining del Bitcoin è evoluto da CPU a silicio specializzato, la distribuzione dell’AI sta seguendo lo stesso percorso.

La prossima rivoluzione dell’AI non riguarderà modelli più grandi – riguarderà migliori chip. L’hardware ottimizzato per i pattern specifici dell’inferenza Transformer determinerà chi può distribuire l’AI economicamente su larga scala.

Proprio come i minatori di Bitcoin hanno ottimizzato ogni watt sprecato, l’hardware per l’inferenza strizzerà ogni ultimo FLOP per joule. Quando succederà, il vero breakthrough non sarà negli algoritmi – sarà nel silicio che li esegue.

Il futuro dell’AI è inciso nel silicio, transistor per transistor.

Per ulteriori benchmark, scelte hardware e ottimizzazione delle prestazioni, controlla il nostro LLM Performance: Benchmarks, Bottlenecks & Optimization hub.