LLM - Page 4 - Rost Glukhov | Persoonlijke website en technische blog

LocalAI QuickStart: Voer OpenAI-compatibele LLM's lokaal uit

LocalAI is een self-hosted, local-first inference server die ontworpen is om te gedragen als een drop-in OpenAI API voor het uitvoeren van AI-werklasten op uw eigen hardware (laptop, workstation of on-premise server).

Snelstartgids voor llama.cpp met CLI en Server

Ik keer steeds terug naar llama.cpp voor lokale inferentie – het geeft je controle die Ollama en anderen abstracteren, en het werkt gewoon. Het is eenvoudig om GGUF-modellen interactief te draaien met llama-cli of een OpenAI-compatibele HTTP-API bloot te stellen met llama-server.

AI-ontwikkeltools: De complete gids voor AI-aangedreven ontwikkeling

Kunstmatige intelligentie (AI) hervormt de manier waarop software wordt geschreven, gecontroleerd, uitgebracht en onderhouden. Van AI-coderingsassistenten tot GitOps-automatisering en DevOps-workflows: ontwikkelaars vertrouwen nu op AI-aangedreven tools in de volledige softwarelevenscyclus.

OpenCode Quickstart: Installeren, configureren en gebruiken van de Terminal AI-codingagent

OpenCode is een open-source AI-coding agent die je in de terminal (TUI + CLI) kunt uitvoeren, met optionele desktop- en IDE-interfaces. Dit is de OpenCode Quickstart: installeren, verifiëren, een model/anbieder verbinden en echte workflows uitvoeren (CLI + API).

Monitoren van LLM-inferentie in productie (2026): Prometheus en Grafana voor vLLM, TGI en llama.cpp

LLM-inferentie lijkt op “nog een API” — totdat de latentie piekt, wachtrijen oplopen en je GPU’s 95% geheugen gebruiken zonder duidelijke verklaring.

OpenClaw Quickstart: Installeren met Docker (Ollama GPU of Claude + CPU)

OpenClaw is een zelfgehoste AI-assistent die is ontworpen om te draaien met lokale LLM-runtimes zoals Ollama of met cloudmodellen zoals Claude Sonnet.

OpenClaw: Een zelfgehoste AI-assistent als echt systeem onderzoeken

De meeste lokale AI-instellingen beginnen op dezelfde manier: een model, een runtime en een chatinterface.

Workflowtoepassingen implementeren met Temporal in Go: een compleet gids

Temporal is een open-source, enterprise-klasse workflow engine die ontwikkelaars in staat stelt om duurzame, schaalbare en fouttolerante workflow toepassingen te bouwen met behulp van bekende programmeertalen zoals Go.

Observability voor LLM-systemen: Metrieken, Traces, Logs en Testen in Productie

LLM-systemen falen op manieren die traditionele API-bewaking niet kan oppassen — wachtrijen vullen zich stil, GPU-geheugen wordt lang voor CPU-busigheid volledig gebruikt, en latentie explodeert op het batchlaag-niveau in plaats van op het applicatie-laag-niveau. Deze gids behandelt een eind-afwerking observabiliteitsstrategie voor LLM-inferentie en LLM-toepassingen: wat je moet meten, hoe je het moet instrumenteren met Prometheus, OpenTelemetry en Grafana, en hoe je de telemetriepijplijn op schaal moet implementeren.

Observability in Productie: Monitoring, Metrieken, Prometheus & Grafana Gids (2026)

Observability vormt de basis van betrouwbare productie-systemen.

Zonder metrische gegevens, dashboards en alerting zullen Kubernetes-cluster’s afwijken, AI-workloads in stilte falen en zullen regressies in latentie onopgemerkt blijven totdat gebruikers klagen.

Retrieval-Augmented Generation (RAG) Tutorial: Architectuur, Implementatie en Productiegids

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.

LLM-hosting in 2026: Lokale, zelfgehoste en cloud-infrastructuur vergeleken

Strategic guide to hosting large language models locally with Ollama, llama.cpp, vLLM, or in the cloud. Compare tools, performance trade-offs, and cost considerations.

LLM-prestaties in 2026: benchmarks, knelpunten en optimalisatie

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Eigen beheer van LLM's en AI-soevereiniteit

Zelfhosting van LLMs houdt data, modellen en inferentie onder uw controle—een praktische weg naar AI-soevereiniteit voor teams, bedrijven en naties.

Vergelijking van de prestaties van LLM’s op Ollama op een GPU met 16 GB VRAM

Het lokaal draaien van grote taalmodellen geeft je privacy, offline mogelijkheden en geen API-kosten. Deze benchmark onthult precies wat je kunt verwachten van 14 populaire LLM’s op Ollama op een RTX 4080.

Top 17 trending Python-projecten op GitHub

Het Python-ecosysteem wordt deze maand gedomineerd door Claude Skills en tooling voor AI-agents. Deze analyse bespreekt de top trending Python-repositories op GitHub.