LLM Performance

LLM-benchmarks met 16 GB VRAM in llama.cpp (snelheid en context)

Hier vergelijk ik de snelheid van verschillende LLMs die draaien op een GPU met 16 GB VRAM en kies ik de beste optie voor self-hosting.

Vergelijking van LLM-prestaties op Ollama op een GPU met 16GB VRAM

Het lokaal uitvoeren van grote taalmodellen biedt privacy, offline mogelijkheden en nul API-kosten. Deze benchmark laat precies zien wat men kan verwachten van 14 populaire LLMs op Ollama op een RTX 4080.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestatielijst

Ik vond enkele interessante prestatietests van GPT-OSS 120b die draaien op Ollama over drie verschillende platforms: NVIDIA DGX Spark, Mac Studio, en RTX 4080. De GPT-OSS 120b model uit de Ollama bibliotheek weegt 65 GB, wat betekent dat het niet past in de 16 GB VRAM van een RTX 4080 (of de nieuwere RTX 5080).

LLM-ASIC's en gespecialiseerde inferentiechips (waarom ze belangrijk zijn)

De toekomst van AI draait niet alleen om slimmer [modellen](https://www.glukhov.org/nl/rag/embeddings/qwen3-embedding-qwen3-reranker-on-ollama/ “Qwen3 embedding en reranker modellen - state-of-the-art prestaties). Het gaat ook om silicium dat aansluit op de manier waarop deze modellen daadwerkelijk worden aangeboden. Gespecialiseerde hardware voor LLM-inferentie volgt een pad dat doet denken aan de verschuiving in Bitcoin-mining van GPUs naar doelgerichte ASICs, maar met strengere beperkingen omdat modellen en precisie-formules voortdurend evolueren.

Hier is een vergelijking tussen Qwen3:30b en GPT-OSS:20b
met aandacht voor instructievolgzaamheid en prestatieparameters, specificaties en snelheid.

Ollama GPT-OSS Structured Output Problemen

Ollama’s GPT-OSS modellen hebben herhalende problemen met het verwerken van gestructureerde uitvoer, vooral wanneer ze worden gebruikt met frameworks zoals LangChain, OpenAI SDK, vllm en anderen.

Geheugenallocatie en modelplanning in de nieuwe versie van Ollama - v0.12.1

Hier vergelijk ik hoeveel VRAM de nieuwe versie van Ollama toewijst aan het model hoeveel VRAM nieuwe versie van Ollama toewijst aan het model met de vorige Ollama-versie. De nieuwe versie is erger.

LLM-prestaties en PCIe-lanes: Belangrijke overwegingen

Hoe beïnvloeden PCIe-lanes de prestaties van LLMs? Afhangend van de taak. Voor training en meervoudige GPU-inferentie - is de prestatievermindering aanzienlijk.

Test: Hoe Ollama Intel CPU-prestaties en efficiënte kernen gebruikt

Ik heb een theorie om te testen - als we alle kernen op een Intel CPU gebruiken, zou dat de snelheid van LLMs verhogen? Het irriteert me dat de nieuwe gemma3 27 bit model (gemma3:27b, 17 GB op ollama) niet in de 16 GB VRAM van mijn GPU past en gedeeltelijk op de CPU draait.

Vergelijking van de geschiktheid van NVidia GPU's voor AI

In het midden van de moderne wereld’s onrust ben ik tech specs van verschillende kaarten vergelijken die geschikt zijn voor AI taken (Deep Learning, Object Detection en LLMs). Ze zijn allemaal ongelooflijk duur.

Wanneer de Ollama-server twee aanvragen tegelijkertijd ontvangt, hangt het gedrag ervan af van de configuratie en de beschikbare systeemresources.

Niet zo lang geleden is vrijgegeven. Laten we even op de hoogte komen en test hoe Mistral Small presteert vergeleken met andere LLMs.

Onlangs hebben we meerdere nieuwe LLMs gezien die zijn vrijgegeven. Opwindende tijden. Laten we testen en zien hoe ze presteren bij het detecteren van logische fouten.

Vergelijking van de samenvattingsvaardigheden van LLM

Testen hoe modellen met een verschillend aantal parameters en kwantificatie zich gedragen.

Vergelijking van de voorspellingsnelheid van verschillende versies van LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) op CPU en GPU.

LLM Performance

LLM-benchmarks met 16 GB VRAM in llama.cpp (snelheid en context)

Vergelijking van LLM-prestaties op Ollama op een GPU met 16GB VRAM

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestatielijst

LLM-ASIC's en gespecialiseerde inferentiechips (waarom ze belangrijk zijn)

Vergelijking: Qwen3:30b vs GPT-OSS:20b

Ollama GPT-OSS Structured Output Problemen

Geheugenallocatie en modelplanning in de nieuwe versie van Ollama - v0.12.1

LLM-prestaties en PCIe-lanes: Belangrijke overwegingen

Test: Hoe Ollama Intel CPU-prestaties en efficiënte kernen gebruikt

Vergelijking van de geschiktheid van NVidia GPU's voor AI

Hoe Ollama Parallel Verzoeken Behandelt

Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 en Phi - LLM Test

Gemma2 vs Qwen2 vs Mistral Nemo vs...

Vergelijking van de samenvattingsvaardigheden van LLM

Snelheidstest voor grote taalmodellen