LLM Performance

LLM-Benchmarks mit 16 GB VRAM und llama.cpp (Geschwindigkeit und Kontext)

Hier vergleiche ich die Geschwindigkeit verschiedener LLMs, die auf einer GPU mit 16 GB VRAM laufen, und wähle das beste Modell für den Selbst-Hosting-Einsatz aus.

Vergleich der Leistung von LLMs auf Ollama mit einer GPU mit 16 GB VRAM

Die Ausführung großer Sprachmodelle lokal bietet Ihnen Privatsphäre, die Möglichkeit, offline zu arbeiten, und null API-Kosten.
Dieser Benchmark zeigt genau, was man von 14 beliebten
LLMs auf Ollama auf einem RTX 4080 erwarten kann.

NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Ollama-Leistungsvergleich

Ich habe einige interessante Leistungsbenchmarks von GPT-OSS 120b gefunden, die auf Ollama unter drei verschiedenen Plattformen durchgeführt wurden: NVIDIA DGX Spark, Mac Studio und RTX 4080. Der GPT-OSS 120b-Modell aus der Ollama-Bibliothek wiegt 65 GB, was bedeutet, dass er nicht in die 16 GB VRAM des RTX 4080 (oder der neueren RTX 5080) passt.

LLM-ASICs und spezialisierte Inferenzchips (warum sie wichtig sind)

Die Zukunft von KI besteht nicht nur in intelligenteren Modellen. Es geht auch um Silizium, das auf die Art und Weise zugeschnitten ist, wie diese Modelle tatsächlich bereitgestellt werden. Spezialisierte Hardware für die LLM-Inferenz folgt einem Pfad, der an den Wechsel von GPUs zu eigens gebauten ASICs beim Bitcoin-Mining erinnert, jedoch mit schwierigeren Randbedingungen, da sich Modelle und Präzisionsrezepte ständig weiterentwickeln.

Hier ist ein Vergleich zwischen Qwen3:30b und GPT-OSS:20b
mit Fokus auf Befehlsfolge und Leistungsparameter, Spezifikationen und Geschwindigkeit.

Ollama GPT-OSS Strukturierte Ausgabeprobleme

Ollama’s GPT-OSS-Modelle haben wiederkehrende Probleme bei der Verarbeitung strukturierter Ausgaben, insbesondere wenn sie mit Frameworks wie LangChain, OpenAI SDK, vllm und anderen verwendet werden.

Speicherzuordnung und Modellscheduling in der neuen Ollama-Version – v0.12.1

Hier vergleiche ich, wie viel VRAM die neue Version von Ollama für das Modell allokiert wie viel VRAM neue Version von Ollama für das Modell allokiert
im Vergleich zur vorherigen Ollama-Version. Die neue Version ist schlechter.

LLM-Leistung und PCIe-Slots: Wichtige Aspekte

Wie PCIe-Lanes die Leistung von LLMs beeinflussen? Je nach Aufgabe. Bei Training und Multi-GPU- Inferenz ist der Leistungsverlust erheblich.

Test: Wie Ollama die Intel CPU Performance und Efficient Cores verwendet

Ich habe eine Theorie, die ich testen möchte – wenn man alle Kerne eines Intel-Prozessors nutzt, würde das die Geschwindigkeit von LLMs erhöhen? Test: Wie Ollama die Leistung des Intel-Prozessors und der effizienten Kerne nutzt

Es nervt mich, dass das neue Gemma3-Modell mit 27 Bit (gemma3:27b, 17 GB auf Ollama) nicht in die 16 GB VRAM meines GPUs passt und teilweise auf dem CPU läuft.

Vergleich der Eignung von NVidia-GPUs für KI

Inmitten der Turbulenzen der modernen Welt hier vergleiche ich die Tech-Spezifikationen verschiedener Grafikkarten für KI-Aufgaben
(Deep Learning,
Objekterkennung
und LLMs).
Sie sind jedoch alle unglaublich teuer.

Wie Ollama parallele Anfragen verarbeitet

Wenn der Ollama-Server zwei Anfragen gleichzeitig erhält, hängt sein Verhalten von seiner Konfiguration und den verfügbaren Systemressourcen ab.

Vor nicht allzu langer Zeit wurde veröffentlicht. Lassen Sie uns aufschließen und testen Sie, wie Mistral Small sich im Vergleich zu anderen LLMs schlägt.

Kürzlich haben wir mehrere neue LLMs gesehen, die veröffentlicht wurden. Aufregende Zeiten. Lassen Sie uns testen und sehen, wie sie sich bei der Erkennung logischer Fehlschlüsse schlagen.

Vergleich der Zusammenfassungsfähigkeiten von LLMs

Testen, wie Modelle mit unterschiedlicher Anzahl an Parametern und Quantisierung sich verhalten.

Vergleich der Vorhersagegeschwindigkeit verschiedener Versionen von LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (Open Source) auf CPU und GPU.

LLM Performance

LLM-Benchmarks mit 16 GB VRAM und llama.cpp (Geschwindigkeit und Kontext)

Vergleich der Leistung von LLMs auf Ollama mit einer GPU mit 16 GB VRAM

NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Ollama-Leistungsvergleich

LLM-ASICs und spezialisierte Inferenzchips (warum sie wichtig sind)

Vergleich: Qwen3:30b vs GPT-OSS:20b

Ollama GPT-OSS Strukturierte Ausgabeprobleme

Speicherzuordnung und Modellscheduling in der neuen Ollama-Version – v0.12.1

LLM-Leistung und PCIe-Slots: Wichtige Aspekte

Test: Wie Ollama die Intel CPU Performance und Efficient Cores verwendet

Vergleich der Eignung von NVidia-GPUs für KI

Wie Ollama parallele Anfragen verarbeitet

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 und Phi – LLM-Test

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Vergleich der Zusammenfassungsfähigkeiten von LLMs

Großer Sprachmodell-Geschwindigkeitstest