L'ascesa degli ASIC per LLM: Perché l'hardware per l'inferenza è importante

I chip specializzati stanno rendendo l'inferenza dell'AI più veloce e economica.

Indice

Il futuro dell’AI non riguarda solo modelli più intelligenti modelli – riguarda silicio più intelligente.
L’hardware specializzato per l’inferenza LLM sta guidando una rivoluzione simile a quella del mining del Bitcoin verso i dispositivi ASIC.

Per ulteriori informazioni su throughput, latenza, VRAM e benchmark su diversi runtimes e hardware, consulta Prestazioni LLM: Benchmark, Bottlenecks & Ottimizzazione.

Circuito elettrico ASIC LLM Immaginazione elettrica - Flux testo a immagine LLM.

Perché gli LLM hanno bisogno del loro hardware dedicato

I modelli linguistici di grandi dimensioni hanno trasformato l’AI, ma dietro ogni risposta fluida si nasconde un’enorme quantità di calcolo e traffico di memoria. Con i costi dell’inferenza che diventano dominanti – spesso superando i costi di addestramento nel corso della vita di un modello – l’hardware ottimizzato specificamente per l’inferenza ha senso economico.

L’analogia con il mining del Bitcoin non è casuale. In entrambi i casi, un carico di lavoro molto specifico e ripetitivo trae enormi vantaggi dal silicio personalizzato che elimina tutto ciò che non è essenziale.

Lezioni dal mining del Bitcoin

Il mining del Bitcoin ha attraversato quattro generazioni:

Era Hardware Beneficio chiave Limitazione
2015–2020 GPU (CUDA, ROCm) Flessibilità Assorbente di energia, limitato dalla memoria
2021–2023 TPUs, NPUs Specializzazione a grana grossa Ancora orientata all’addestramento
2024–2025 ASIC per Transformer Ottimizzato per inferenza a bassa precisione Limitata generalità

L’AI sta seguendo un percorso simile. Ogni transizione ha migliorato le prestazioni e l’efficienza energetica di ordini di grandezza.

Tuttavia, a differenza degli ASIC per il Bitcoin (che calcolano solo SHA-256), gli ASIC per l’inferenza devono avere un certo livello di flessibilità. I modelli evolvono, le architetture cambiano e i piani di precisione si migliorano. L’arte è specializzare esattamente abbastanza – fissando i modelli centrali mentre mantenendo l’adattabilità ai margini.

Cosa rende diversa l’inferenza dagli LLM rispetto all’addestramento

I carichi di lavoro di inferenza hanno caratteristiche uniche che l’hardware specializzato può sfruttare:

  • La bassa precisione domina – l’aritmetica a 8-bit, 4-bit, addirittura ternaria o binaria funziona bene per l’inferenza
  • La memoria è il collo di bottiglia – spostare pesi e cache KV consuma molto più potere del calcolo
  • La latenza è più importante del throughput – gli utenti aspettano token in meno di 200 ms
  • Massima parallelità delle richieste – migliaia di richieste di inferenza parallele per chip
  • Pattern prevedibili – i livelli Transformer sono altamente strutturati e possono essere fissati
  • Opportunità di sparsità – i modelli utilizzano sempre di più tecniche di pruning e MoE (Mixture-of-Experts)

Un chip progettato appositamente per l’inferenza può fissare queste ipotesi per ottenere 10–50× migliore prestazione per watt rispetto alle GPU general-purpose.

Chi sta costruendo hardware ottimizzato per gli LLM

Il mercato degli ASIC per l’inferenza degli LLM sta riscaldandosi con giocatori stabiliti e startup ambiziose:

Azienda Chip / Piattaforma Specialità
Groq LPU (Language Processing Unit) Throughput deterministico per LLMs
Etched AI Sohu ASIC Motore Transformer fissato
Tenstorrent Grayskull / Blackhole ML generale con mesh ad alta larghezza di banda
OpenAI × Broadcom Custom Inference Chip Presunta uscita nel 2026
Intel Crescent Island GPU Xe3P dedicata all’inferenza con 160GB HBM
Cerebras Wafer-Scale Engine (WSE-3) Massiva larghezza di banda memoria

Questi non sono prodotti inesistenti – sono già in uso nei data center. Inoltre, startup come d-Matrix, Rain AI, Mythic e Tenet stanno progettando chip da zero intorno ai pattern aritmetici dei Transformer.

Architettura di un ASIC per l’inferenza dei Transformer

Cosa sembra realmente un chip ottimizzato per i Transformer sotto il cofano?

+--------------------------------------+
|         Host Interface               |
|   (PCIe / CXL / NVLink / Ethernet)   |
+--------------------------------------+
|  On-chip Interconnect (mesh/ring)    |
+--------------------------------------+
|  Compute Tiles / Cores               |
|   — Unità di moltiplicazione matrice densa      |
|   — ALUs a bassa precisione (int8/int4)   |
|   — Unità di dequantizzazione / attivazione       |
+--------------------------------------+
|  On-chip SRAM & KV cache buffers     |
|   — Pesanti caldi, cache fuse        |
+--------------------------------------+
|  Pipelines di quantizzazione / dequantizzazione    |
+--------------------------------------+
|  Scheduler / Controller              |
|   — Motore di esecuzione grafica statica    |
+--------------------------------------+
|  Interfaccia DRAM / HBM off-chip       |
+--------------------------------------+

Le caratteristiche architetturali principali includono:

  • Unità di calcolo – Unità di moltiplicazione matrice densa ottimizzate per operazioni a int8, int4 e ternarie
  • SRAM on-chip – Buffer di grandi dimensioni che tengono i pesi caldi e le cache KV, riducendo gli accessi costosi alla DRAM
  • Interconnessioni streaming – Topologia mesh che permette una scalabilità efficiente su più chip
  • Motori di quantizzazione – Quantizzazione/dequantizzazione in tempo reale tra i livelli
  • Pila del compilatore – Traduce i grafi PyTorch/ONNX direttamente in micro-ops specifici per il chip
  • Kernel di attenzione fissati – Eliminano l’overhead di control flow per softmax e altre operazioni

La filosofia progettuale è simile a quella degli ASIC per il Bitcoin: ogni transistor serve un carico di lavoro specifico. Nessun silicio sprecato su funzionalità che l’inferenza non necessita.

Benchmark reali: GPU vs. ASIC per l’inferenza

Ecco come l’hardware specializzato per l’inferenza si confronta con le GPU all’avanguardia:

Modello Hardware Throughput (token/s) Tempo per primo token Moltiplicatore di prestazioni
Llama-2-70B NVIDIA H100 (8x DGX) ~80–100 ~1,7s Base (1×)
Llama-2-70B Groq LPU 241–300 0,22s 3–18× più veloce
Llama-3.3-70B Groq LPU ~276 ~0,2s Costante 3×
Gemma-7B Groq LPU 814 <0,1s 5–15× più veloce

Fonti: Groq.com, ArtificialAnalysis.ai, NVIDIA Developer Blog

Questi numeri illustrano non miglioramenti incrementali, ma guadagni dell’ordine di grandezza sia in throughput che in latenza.

I compromessi critici

La specializzazione è potente, ma comporta sfide:

  1. Flessibilità vs. Efficienza. Un ASIC completamente fisso esegue rapidamente i modelli Transformer attuali, ma potrebbe avere difficoltà con le architetture del futuro. Cosa succede quando i meccanismi di attenzione evolvono o emergono nuove famiglie di modelli?

  2. Quantizzazione e precisione. La bassa precisione risparmia enormi quantità di energia, ma gestire la degradazione della precisione richiede schemi di quantizzazione sofisticati. Non tutti i modelli si quantizzano facilmente a 4-bit o inferiore.

  3. Ecosistema software. L’hardware senza compilatori, kernel e framework robusti è inutile. NVIDIA domina ancora per gran parte grazie all’ecosistema maturato di CUDA. I nuovi produttori di chip devono investire pesantemente nel software.

  4. Costi e rischi. Realizzare un chip costa milioni di dollari e richiede 12–24 mesi. Per le startup, è un grosso investimento su ipotesi architetturali che potrebbero non reggere.

Tuttavia, a livello iper-scalabile, anche un miglioramento del 2× nell’efficienza si traduce in miliardi di risparmi. Per i fornitori di cloud che gestiscono milioni di richieste di inferenza al secondo, il silicio personalizzato diventa sempre più irrinunciabile.

A cosa dovrebbe assomigliare un chip ideale per l’inferenza degli LLM

Funzione Specificazione ideale
Processo Nodo da 3–5 nm
SRAM on-chip 100MB+ strettamente accoppiato
Precisione Supporto nativo per int8 / int4 / ternario
Throughput 500+ token/sec (modello da 70B)
Latenza <100 ms tempo per primo token
Interconnessione Collegamenti a bassa latenza mesh o ottici
Compilatore Toolchain per microcodice PyTorch/ONNX
Energia <0,3 joule per token

Il futuro: 2026–2030 e oltre

Si prevede che il panorama hardware per l’inferenza si stratifichi in tre livelli:

  1. Chip per l’addestramento. GPU di alto livello come NVIDIA B200 e AMD Instinct MI400 continueranno a dominare l’addestramento grazie alla loro flessibilità FP16/FP8 e alla larghezza di banda della memoria elevata.

  2. ASIC per l’inferenza. Acceleratori per Transformer fissati a bassa precisione gestiranno il servizio in produzione su larga scala, ottimizzati per costo ed efficienza.

  3. NPUs per l’edge. Piccoli chip ultra-efficienti porteranno LLM quantizzati a smartphone, veicoli, dispositivi IoT e robot, abilitando l’intelligenza su dispositivi senza dipendenza dal cloud.

Oltre all’hardware, vedremo:

  • Cluster ibridi – GPU per addestramento flessibile, ASIC per servizio efficiente
  • Inferenza come servizio – Principali fornitori di cloud che distribuiscono chip personalizzati (es. AWS Inferentia, Google TPU)
  • Co-design hardware-software – Modelli progettati esplicitamente per essere amichevoli all’hardware attraverso sparsità, consapevolezza della quantizzazione e attenzione per blocchi
  • Standard aperti – API standardizzate per l’inferenza per evitare il blocco dei fornitori

Pensieri finali

L’“ASIC-izzazione” dell’inferenza AI](https://www.glukhov.org/it/llm-performance/hardware/llm-asics/ “Inferenza AI con ASICs”) è già in atto. Proprio come il mining del Bitcoin è evoluto da CPU a silicio specializzato, la distribuzione dell’AI sta seguendo lo stesso percorso.

La prossima rivoluzione dell’AI non riguarderà modelli più grandi – riguarderà migliori chip. L’hardware ottimizzato per i pattern specifici dell’inferenza Transformer determinerà chi può distribuire l’AI economicamente su larga scala.

Proprio come i minatori di Bitcoin hanno ottimizzato ogni watt sprecato, l’hardware per l’inferenza strizzerà ogni ultimo FLOP per joule. Quando succederà, il vero breakthrough non sarà negli algoritmi – sarà nel silicio che li esegue.

Il futuro dell’AI è inciso nel silicio, transistor per transistor.

Per ulteriori benchmark, scelte hardware e ottimizzazione delle prestazioni, controlla il nostro LLM Performance: Benchmarks, Bottlenecks & Optimization hub.