Was ist eine LLM-ASIC?

Ein LLM-ASIC (Application-Specific Integrated Circuit) ist ein spezialisierter Chip, der speziell für das Ausführen von Inferenz-Workloads großer Sprachmodelle entwickelt wurde und für Low-Precision-Arithmetik, Speicherbandbreite und latenzkritische Operationen optimiert ist, anstatt für die allgemeine Datenverarbeitung, die GPUs bieten.

Wie viel schneller sind Inferenz-ASICs im Vergleich zu GPUs?

Moderne Inferenz-ASICs wie Groqs LPU können eine 3- bis 18-mal schnellere Durchsatzleistung und eine bis zu 10-mal schnellere Time-to-First-Token im Vergleich zu High-End-GPUs wie der NVIDIA H100 erzielen. Sie erreichen zudem eine 10- bis 50-mal bessere Leistung pro Watt, was bei Skalierung zu erheblichen Kosteneinsparungen führt.

Warum können wir für die KI-Inferenz nicht einfach GPUs verwenden?

„Während GPUs für Inferenz gut geeignet sind, sind sie für diese Aufgabe überdimensioniert. Sie unterstützen arithmetische Operationen mit hoher Präzision (FP32/FP16), obwohl für Inferenz oft nur 8-Bit- oder 4-Bit-Genauigkeit erforderlich ist, verbrauchen Energie für nicht genutzte Funktionen und sind nicht für die speicherbandbreiten-dominierten Workloads optimiert, die für Transformer-Modelle typisch sind."

Was sind die Nachteile der Verwendung spezialisierter Inferenzchips?

Die wichtigsten Kompromisse liegen in der Flexibilität (ASICs haben möglicherweise Schwierigkeiten mit neuen Modellarchitekturen), den hohen initialen Designkosten (zehntausende Millionen für die Chipentwicklung) und der Abhängigkeit von Software-Ökosystemen (Compiler und Frameworks). Sie stellen zudem eine langfristige Wette auf spezifische Architekturmuster dar.

Wer entwickelt diese Inferenz-ASICs?

Zu den führenden Akteuren zählen Groq (LPU), Etched AI (Sohu), Tenstorrent (Grayskull/Blackhole), Intel (Crescent Island), Cerebras (WSE-3) sowie Taalas (HC1 und die Roadmap HC2). Zudem werden Gerüchte über Kooperationen, wie etwa zwischen OpenAI und Broadcom, diskutiert. Zahlreiche Startups wie d-Matrix, Rain AI und Mythic betreten ebenfalls diesen Markt.

Was ist Taalas HC1 und die Chat-Jimmy-Demo?

Taalas ist ein Startup für Inferenzhardware, das ein spezifisches Modell in einen kundenspezifischen Chip fest einbaut. Ihr erstes öffentliches Produkt, HC1, führt eine quantisierte Variante von Llama 3.1 8B aus. Das Unternehmen bietet einen kostenlosen, als „Chat Jimmy" gekennzeichneten Web-Chatbot und API-Zugang über ein Antragsformular an. Laut eigenen Angaben erreicht das Unternehmen für dieses Modell eine Dekodierungsrate von etwa 16.000 bis 17.000 Tokens pro Sekunde pro Benutzer, was weit über dem typischen GPU-Serving für diese Klasse liegt, jedoch auf Kosten einer festen Architektur und aggressiver Quantisierung in der ersten Generation. Es handelt sich um eine gezielte Proof-of-Concept-Lösung für ein kleines, praxistaugliches Modell, nicht um einen Assistenten an der Frontiers, und richtet sich an Entwickler, denen Latenz und Kosten wichtiger sind als maximale Leistungsfähigkeit.

Werden Inferenz-ASICs GPUs vollständig ersetzen?

Nein. Die Zukunft wird wahrscheinlich hybride Cluster umfassen, in denen GPUs flexible Trainingsworkloads bearbeiten, während ASICs die Skalierung der Inferenz in der Produktion übernehmen. GPUs bleiben für Forschung, Modellentwicklung und Training unverzichtbar, während ASICs die Effizienz des Einsatzes optimieren.

Wo finde ich weitere Informationen zur Leistung und zu Benchmarks von LLMs?

Unser LLM-Leistungs-Hub behandelt Durchsatz gegenüber Latenz, VRAM-Grenzen, parallele Anfragen sowie Benchmarks über Laufzeitumgebungen und Hardware hinweg.

LLM-ASICs und spezialisierte Inferenzchips (warum sie wichtig sind)

ASICs und maßgeschneiderte Chips steigern Geschwindigkeit und Effizienz der LLM-Inferenz.

Inhaltsverzeichnis

Die Zukunft von KI besteht nicht nur in intelligenteren Modellen. Es geht auch um Silizium, das auf die Art und Weise zugeschnitten ist, wie diese Modelle tatsächlich bereitgestellt werden. Spezialisierte Hardware für die LLM-Inferenz folgt einem Pfad, der an den Wechsel von GPUs zu eigens gebauten ASICs beim Bitcoin-Mining erinnert, jedoch mit schwierigeren Randbedingungen, da sich Modelle und Präzisionsrezepte ständig weiterentwickeln.

Für mehr Informationen zu Durchsatz, Latenz, VRAM und Benchmarks über verschiedene Laufzeiten und Hardware hinweg, siehe LLM-Leistung: Benchmarks, Engpässe & Optimierung.

LLM ASIC elektrischer Schaltkreis Elektrische Phantasie - Flux Text-zu-Bild LLM.

Warum LLMs von inferenzspezifischer Hardware profitieren

Large Language Models haben KI transformiert, aber jede flüssige Antwort hängt von riesigen, vorhersehbaren Strömen von Matrixmathematik und Speicherzugriffen ab. Da die Ausgaben für die Inferenz wachsen – oft über die gesamte Lebensdauer eines Modells den Trainingseinsatz übersteigend – werden Chips, die für den Dienstbetrieb optimiert sind und nicht für jede mögliche Arbeitslast, wirtschaftlich attraktiv.

Die Analogie zum Bitcoin-Mining ist unvollkommen, aber lehrreich. Beide sind repetitive, gut abgegrenzte Aufgaben, bei denen das Entfernen unnötiger Allgemeinheit vom Chip große Gewinne im Durchsatz und an Joule pro nützlicher Operation erbringen kann.

Was die Geschichte des Bitcoin-Minings über Inferenz-ASICs aussagt

Das Bitcoin-Mining entwickelte sich in vier Generationen:

Ära	Hardware	Hauptvorteil	Einschränkung
2015–2020	GPUs (CUDA, ROCm)	Flexibilität	Stromhungrig, speichergebunden
2021–2023	TPUs, NPUs	Grobe Spezialisierung	Immer noch trainingsorientiert
2024–2025	Transformer-ASICs	Optimiert für Inferenz mit niedriger Bitbreite	Begrenzte Allgemeinheit

KI folgt einem ähnlichen Pfad. Jeder Übergang verbesserte Leistung und Energieeffizienz um Größenordnungen.

Im Gegensatz zu Bitcoin-ASICs (die nur SHA-256 berechnen) benötigen Inferenz-ASICs jedoch eine gewisse Flexibilität. Modelle entwickeln sich weiter, Architekturen ändern sich und Präzisschemen verbessern sich. Der Trick besteht darin, genau genug zu spezialisieren – die Kernmuster festzuverdrahten, während man an den Rändern anpassungsfähig bleibt.

Wie sich LLM-Inferenz vom Training unterscheidet (und was Chips ausnutzen)

Inferenz-Arbeitslasten offenbaren Muster, die spezialisierte Hardware gezielt ansprechen kann:

Niedrige Präzision dominiert – 8-Bit, 4-Bit, sogar ternäre oder binäre Arithmetik funktionieren gut für die Inferenz
Speicher ist der Engpass – Das Verschieben von Gewichten und KV-Caches verbraucht weit mehr Energie als die Berechnung
Latenz ist wichtiger als Durchsatz – Benutzer erwarten Tokens innerhalb von unter 200 ms
Massive Parallelität der Anfragen – Tausende gleichzeitige Inferenzanfragen pro Chip
Vorhersehbare Muster – Transformer-Schichten sind hochstrukturiert und können fest verdrahtet werden
Möglichkeiten für Sparsity (Dünnbesetztheit) – Modelle nutzen zunehmend Pruning und MoE (Mixture-of-Experts)-Techniken

Ein eigens gebauter Inferenz-Chip kann diese Annahmen fest verdrahten, um eine 10–50× bessere Leistung pro Watt im Vergleich zu allgemeinen GPUs zu erreichen.

Wer Inferenz-Silizium für LLMs optimiert baut

Der Markt für Inferenz-ASICs erstreckt sich über etablierte Unternehmen, Wafer-Scale-Designs und Startups, die auf Transformer-optimiertes Silizium wetten:

Unternehmen	Chip / Plattform	Spezialität
Groq	LPU (Language Processing Unit)	Determinierter Durchsatz für LLMs
Etched AI	Sohu ASIC	Fest verdrahteter Transformer-Engine
Tenstorrent	Grayskull / Blackhole	Allgemeiner ML mit hochbreitbandigem Mesh
Taalas	HC1 (Llama 3.1 8B Produkt) / HC2 Roadmap	Modell-spezifisches „Hardcore"-Silizium; kombiniert Speicher und Rechenleistung
OpenAI × Broadcom	Custom Inference Chip	Gerüchte über Rollout 2026
Intel	Crescent Island	Nur-Inferenz Xe3P GPU mit 160GB HBM
Cerebras	Wafer-Scale Engine (WSE-3)	Massive On-Die Speicherbandbreite

Viel davon ist bereits in Produktions-Rechenzentren im Einsatz, nicht nur in Präsentationen. Kleinere Teams wie d-Matrix, Rain AI, Mythic und Tenet verfolgen ebenfalls Architekturen, die auf Inferenz mit niedriger Bitbreite und strukturierte Sparsity abgestimmt sind.

Taalas HC1, Chat Jimmy und ultra-schnelle Bereitstellung kleiner Modelle

Taalas ist ein jüngstes Beispiel der Schule „spezialisiere fast alles". Das Unternehmen argumentiert, dass die Grenze zwischen Speicher und Rechenleistung (Off-Chip-DRAM gegenüber On-Chip-SRAM) Kosten, Energieverbrauch und Ingenieurskomplexität für die Inferenz dominiert, und dass Silizium pro Modell – was sie als Hardcore Models bezeichnen – diese Grenze kollabieren lassen kann, wenn eine Bereitstellung bereit ist, die Gewichte und den Graphen zu fixieren.

Ihr erstes lieferbares Produkt, HC1, verdrahtet eine Llama 3.1 8B-Variante fest. Diese Wahl ist pragmatisch: Das Modell ist klein genug, um schnell hochgefahren zu werden, ist offen dokumentiert und dennoch für viele Automatisierungs-, Klassifizierungs- und Entwurfsaufgaben nützlich, bei denen die rohe Tiefe der Schlussfolgerung weniger wichtig ist als Latenz und Kosten. Taalas berichtet von einer Größenordnung von 16k–17k dekodierten Tokens pro Sekunde pro Benutzer für diese Konfiguration (Herstellermethodik und Vergleiche erscheinen in ihrem Bericht), zusammen mit Behauptungen großer Gewinne bei Kapital und Energie im Vergleich zu herkömmlichen GPU-Stacks für dieselbe Modellklasse. Bauteile der ersten Generation verwenden aggressive gemischte Speicher mit niedriger Bitbreite; das Unternehmen beschreibt den Übergang zu Standard-4-Bit-Gleitkommaformaten auf HC2, um Spielraum bei der Qualität zurückzugewinnen.

llm asics infference

Für Entwickler, die fühlen wollen, was diese Durchsatzklasse in der Praxis bedeutet, betreibt Taalas einen kostenlosen Chatbot-Demo, Chat Jimmy, und bietet API-Zugang über ein Antragsformular auf ihrer Website. Es ist explizit ein Proof of Concept – kein Frontline-Assistent – aber es veranschaulicht ein echtes Publikum, das einem bescheidenen Modell mit „menschlicher Kognitionsgeschwindigkeit" gegenüber einem größeren Modell, das sich träge oder teuer anfühlt, den Vorzug geben könnte.

Architektur eines Transformer-Inferenz-ASICs

Wie sieht ein Transformer-optimierter Chip tatsächlich unter der Haube aus?

+--------------------------------------+
|         Host-Schnittstelle           |
|   (PCIe / CXL / NVLink / Ethernet)   |
+--------------------------------------+
|  On-Chip-Interconnect (Mesh/Ring)    |
+--------------------------------------+
|  Compute-Tiles / Kerne               |
|   — Dense-Matrix-Multiplikationseinheiten |
|   — Low-Precision (int8/int4) ALUs   |
|   — Dequant / Aktivierungseinheiten       |
+--------------------------------------+
|  On-Chip SRAM & KV-Cache-Puffer     |
|   — Heiße Gewichte, verschmolzene Caches |
+--------------------------------------+
|  Quantisierungs- / Dequantisierungs-Pipelines |
+--------------------------------------+
|  Scheduler / Controller              |
|   — Engine für statische Graphausführung    |
+--------------------------------------+
|  Off-Chip DRAM / HBM-Schnittstelle       |
+--------------------------------------+

Wichtige architektonische Merkmale umfassen:

Rechenkern – Dense-Matrix-Multiplikationseinheiten, optimiert für int8, int4 und ternäre Operationen
On-Chip SRAM – Große Puffer halten heiße Gewichte und KV-Caches, was teure DRAM-Zugriffe minimiert
Streaming-Interconnects – Mesh-Topologie ermöglicht effizientes Skalieren über mehrere Chips
Quantisierungs-Engines – Echtzeit-Quantisierung/Dequantisierung zwischen den Schichten
Compiler-Stack – Übersetzt PyTorch/ONNX-Graphen direkt in chip-spezifische Mikro-Befehle
Fest verdrahtete Attention-Kerne – Eliminiert Overhead für Steuerungsfluss bei Softmax und anderen Operationen

Die Designphilosophie spiegelt Bitcoin-ASICs wider: Jeder Transistor dient der spezifischen Arbeitslast. Kein verschwendetes Silizium für Funktionen, die die Inferenz nicht benötigt.

GPU gegenüber ASIC-Benchmarks für LLM-Inferenz

Repräsentative öffentliche Zahlen zeigen, wie spezialisierte Inferenz-Hardware von allgemeinen GPU-Stacks bei denselben Modellfamilien Abstand gewinnen kann (prüfen Sie immer die Methodik und Batch-Voraussetzungen für Ihre eigenen Arbeitslasten):

Modell	Hardware	Durchsatz (Tokens/s)	Zeit bis zum ersten Token	Leistungsmultiplikator
Llama-2-70B	NVIDIA H100 (8x DGX)	~80–100	~1.7s	Basis (1×)
Llama-2-70B	Groq LPU	241–300	0.22s	3–18× schneller
Llama-3.3-70B	Groq LPU	~276	~0.2s	Konsistent 3×
Gemma-7B	Groq LPU	814	<0.1s	5–15× schneller
Llama-3.1-8B	Taalas HC1 (Hersteller)	~16k–17k Decode-T/s/User	—	Separate Achse (festes 8B-Graph, nicht 70B)

Quellen: Groq.com, ArtificialAnalysis.ai, NVIDIA Developer Blog; Taalas HC1-Zahlen stammen aus dem Produktpost des Unternehmens.

Die auf Groq fokussierten Zeilen zeigen große Gewinne im Durchsatz und in der Zeit bis zum ersten Token gegenüber einer High-End-GPU-Basislinie bei großen Modellen. Die Taalas-Zeile ist kein weiterer Multiplikator gegenüber diesen 70B-Zeilen; sie veranschaulicht, wie weit die Dekodierung pro Benutzer getrieben werden kann, wenn das Modell und der Graph im Silizium fixiert sind, auf Kosten der Flexibilität.

Kompromisse bei der Spezialisierung von Inferenz-Silizium

Spezialisierung kauft Leistung, führt aber Produkt- und Ingenieursrisiken wieder ein:

Flexibilität vs. Effizienz. Ein vollständig fixierter ASIC rast durch die heutigen Transformer-Modelle, könnte aber bei den Architekturen von morgen Schwierigkeiten haben. Was passiert, wenn sich Attention-Mechanismen weiterentwickeln oder neue Modellfamilien entstehen?
Quantisierung und Genauigkeit. Niedrigere Präzision spart massive Mengen an Energie, aber die Verwaltung des Genauigkeitsverlusts erfordert ausgefeilte Quantisierungsschemata. Nicht alle Modelle quantisieren sich elegant auf 4-Bit oder darunter.
Software-Ökosystem. Hardware ohne robuste Compiler, Kerne und Frameworks ist nutzlos. NVIDIA dominiert immer noch weitgehend wegen des ausgereiften Ökosystems von CUDA. Neue Chip-Hersteller müssen stark in Software investieren.
Kosten und Risiko. Das Tape-Out eines Chips kostet zig Millionen Dollar und dauert 12–24 Monate. Für Startups ist dies eine massive Wette auf architektonische Annahmen, die nicht haltbar sein könnten.

Dennoch übersetzen sich auf Hyperskala selbst 2×-Effizienzgewinne in Milliarden an Einsparungen. Für Cloud-Anbieter, die Millionen von Inferenzanfragen pro Sekunde abwickeln, wird maßgeschneidertes Silizium zunehmend unverhandelbar.

Eine Wunschliste für einen LLM-Inferenz-Chip

Merkmal	Ideale Spezifikation
Prozess	3–5nm-Knoten
On-Chip SRAM	100MB+ eng gekoppelt
Präzision	int8 / int4 / ternäre native Unterstützung
Durchsatz	500+ Tokens/sec (70B-Modell)
Latenz	<100ms Zeit bis zum ersten Token
Interconnect	Niedrige Latenz Mesh oder optische Links
Compiler	PyTorch/ONNX → Mikrcode-Toolchain
Energie	<0,3 Joule pro Token

Ausblick (2026–2030)

Erwarten Sie, dass sich die Landschaft der Inferenz-Hardware in drei grobe Ebenen stratifiziert:

Training-Chips. High-End-GPUs wie NVIDIA B200 und AMD Instinct MI400 werden das Training mit ihrer FP16/FP8-Flexibilität und massiver Speicherbandbreite weiter dominieren.
Inferenz-ASICs. Fest verdrahtete, niedrige-Präzision-Transformer-Acceleratoren werden den Produktivdienstbetrieb im Hyperscale-Bereich übernehmen, optimiert für Kosten und Effizienz.
Edge-NPUs. Kleine, ultra-effiziente Chips werden quantisierte LLMs zu Smartphones, Fahrzeugen, IoT-Geräten und Robotern bringen und On-Device-Intelligenz ohne Cloud-Abhängigkeit ermöglichen.

Über die Hardware hinaus werden wir sehen:

Hybride Cluster – GPUs für flexibles Training, ASICs (oder Wafer-Scale-Inferenz-Engines) für effiziente Bereitstellung
Inferenz-als-Dienst – Hyperscaler mischen eigene Acceleratoren (AWS Inferentia, Google TPU und andere) mit GPUs
Hardware-Software-Co-Design – Modelle, die für Block-Sparsity, MoE-Routing und quantisierungsfreundliche Schichten geformt sind
Silizium pro Modell oder pro Familie – Unternehmen wie Taalas wetten darauf, dass einige Bereitstellungen architektonische Flexibilität gegen extreme Kosten und Latenz auf einem bekannten Graphen eintauschen werden
Offene Inferenz-APIs – Druck, Bereitstellungsschnittstellen portabel zu halten, auch wenn das Silizium nicht portabel ist

Abschließende Gedanken

Die „ASIC-isierung" der KI-Inferenz ist bereits im Gange. Genau wie das Bitcoin-Mining von CPUs zu spezialisiertem Silizium evolvierte, folgt auch der KI-Einsatz demselben Pfad.

Die nächste Revolution in der KI wird nicht um größere Modelle gehen – es wird um bessere Chips gehen. Hardware, die auf die spezifischen Muster der Transformer-Inferenz optimiert ist, wird bestimmen, wer KI wirtschaftlich im großen Maßstab bereitstellen kann.

Genau wie Bitcoin-Miner jede verschwendete Watt optimiert haben, wird Inferenz-Hardware jeden letzten FLOP-pro-Joule ausquetschen. Wenn das passiert, wird der wahre Durchbruch nicht in den Algorithmen liegen – er wird im Silizium liegen, das sie ausführt.

Die Zukunft der KI wird in Silizium geätzt, Transistor für Transistor.

Für weitere Benchmarks, Hardware-Entscheidungen und Leistungsoptimierung, besuchen Sie unser Hub LLM-Leistung: Benchmarks, Engpässe & Optimierung.