LLM - Page 3 - Rost Glukhov | Persoonlijke website en technische blog

OpenHands Coding Assistant Snelstart: Installatie, CLI-Vlaggen, Voorbeelden

OpenHands is een open-source, model-agnostisch platform voor door AI-aangedreven softwareontwikkelingsagenten.
Het stelt een agent in staat om zich meer te gedragen als een programmeerpartner dan als een eenvoudig hulpmiddel voor automatische voltooijing.

LocalAI QuickStart: Voer OpenAI-compatibele LLM's lokaal uit

LocalAI is een self-hosted, local-first inference server die ontworpen is om te gedragen als een drop-in OpenAI API voor het uitvoeren van AI-werklasten op uw eigen hardware (laptop, workstation of on-premise server).

Snelstart van llama.cpp met CLI en server

Ik keer steeds terug naar llama.cpp voor lokale inferentie: het geeft je controle die Ollama en anderen abstracteren, en het werkt gewoon. Het is eenvoudig om GGUF-modellen interactief uit te voeren met llama-cli of een OpenAI-compatibele HTTP-API bloot te stellen met llama-server.

AI-ontwikkeltools: De complete gids voor AI-aangedreven ontwikkeling

Kunstmatige intelligentie (AI) hervormt de manier waarop software wordt geschreven, gecontroleerd, uitgebracht en onderhouden. Van AI-coderingsassistenten tot GitOps-automatisering en DevOps-workflows: ontwikkelaars vertrouwen nu op AI-aangedreven tools in de volledige softwarelevenscyclus.

OpenCode Quickstart: Installeren, configureren en gebruiken van de Terminal AI-codingagent

OpenCode is een open-source AI-coding agent die je in de terminal (TUI + CLI) kunt uitvoeren, met optionele desktop- en IDE-interfaces. Dit is de OpenCode Quickstart: installeren, verifiëren, een model/anbieder verbinden en echte workflows uitvoeren (CLI + API).

Monitoren van LLM-inferentie in productie (2026): Prometheus en Grafana voor vLLM, TGI en llama.cpp

LLM-inferentie lijkt op “nog een API” — totdat de latentie piekt, wachtrijen oplopen en je GPU’s 95% geheugen gebruiken zonder duidelijke verklaring.

OpenClaw Snelstart: Installeren met Docker (Ollama GPU of Claude + CPU)

OpenClaw is een zelf-gehoste AI-assistent die is ontworpen om te draaien met lokale LLM-runtimes zoals Ollama of met cloudgebaseerde modellen zoals Claude Sonnet.

OpenClaw: Een zelfgehoste AI-assistent bestudeerd als echt systeem

De meeste lokale AI-opstellingen beginnen op dezelfde manier: een model, een runtime-omgeving en een chatinterface.

Workflowtoepassingen implementeren met Temporal in Go: een compleet gids

Temporal is een open-source, enterprise-klasse workflow engine die ontwikkelaars in staat stelt om duurzame, schaalbare en fouttolerante workflow toepassingen te bouwen met behulp van bekende programmeertalen zoals Go.

Observability voor LLM-systemen: Metrieken, Traces, Logs en Testen in Productie

LLM-systemen falen op manieren die traditionele API-bewaking niet kan oppassen — wachtrijen vullen zich stil, GPU-geheugen wordt lang voor CPU-busigheid volledig gebruikt, en latentie explodeert op het batchlaag-niveau in plaats van op het applicatie-laag-niveau. Deze gids behandelt een eind-afwerking observabiliteitsstrategie voor LLM-inferentie en LLM-toepassingen: wat je moet meten, hoe je het moet instrumenteren met Prometheus, OpenTelemetry en Grafana, en hoe je de telemetriepijplijn op schaal moet implementeren.

Handleiding voor Retrieval-Augmented Generation (RAG): architectuur, implementatie en gids voor productie

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.

Observability in Productie: Monitoring, Metrieken, Prometheus & Grafana Gids (2026)

Observability vormt de basis van betrouwbare productie-systemen.

Zonder metrische gegevens, dashboards en alerting zullen Kubernetes-cluster’s afwijken, AI-workloads in stilte falen en zullen regressies in latentie onopgemerkt blijven totdat gebruikers klagen.

LLM Hosting in 2026: Lokale, zelf-gehoste en cloud-infrastructuur vergeleken

Strategic guide to hosting large language models locally with Ollama, llama.cpp, vLLM, or in the cloud. Compare tools, performance trade-offs, and cost considerations.

LLM-prestaties in 2026: benchmarks, bottlenecks en optimalisatie

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Eigen beheer van LLM's en AI-soevereiniteit

Zelfhosting van LLMs houdt data, modellen en inferentie onder uw controle—een praktische weg naar AI-soevereiniteit voor teams, bedrijven en naties.

Vergelijking van LLM-prestaties op Ollama op een GPU met 16GB VRAM

Het lokaal uitvoeren van grote taalmodellen biedt privacy, offline mogelijkheden en nul API-kosten. Deze benchmark laat precies zien wat men kan verwachten van 14 populaire LLMs op Ollama op een RTX 4080.