AI-systemen: zelf gehoste assistenten, RAG en lokale infrastructuur

De meeste lokale AI-opstellingen beginnen met een model en een runtime.

Oh My Opencode Beoordeling: Eerlijke Resultaten, Factureringsrisico's en Wanneer het de Loon waard is

Oh My Opencode belooft een “virtueel AI-ontwikkelteam” — Sisyphus die specialisten coördineert, taken die parallel worden uitgevoerd en het magische ultrawork-sleutelwoord dat alles activeert.

Oh My Opencode: Diepgaande Analyse en Modelgids voor Gespecialiseerde Agents

De grootste sprong in capaciteit in OpenCode komt van gespecialiseerde agents: een doordachte scheiding van orkestratie, planning, uitvoering en onderzoek.

Oh My Opencode QuickStart voor OpenCode: Installeren, configureren, uitvoeren

Oh My Opencode maakt van OpenCode een multi-agent codeerhulpmiddel: een orchestrator delegeert werk aan specialistische agenten die parallel draaien.

Beste LLM's voor OpenCode – lokaal getest

Ik heb getest hoe OpenCode werkt met verschillende lokaal gehoste LLM’s via Ollama, en ter vergelijking heb ik ook enkele gratis modellen van OpenCode Zen toegevoegd.

OpenHands Coding Assistant Snelstart: Installatie, CLI-Vlaggen, Voorbeelden

OpenHands is een open-source, model-agnostisch platform voor door AI-aangedreven softwareontwikkelingsagenten.
Het stelt een agent in staat om zich meer te gedragen als een programmeerpartner dan als een eenvoudig hulpmiddel voor automatische voltooijing.

LocalAI QuickStart: Voer OpenAI-compatibele LLM's lokaal uit

LocalAI is een self-hosted, local-first inference server die ontworpen is om te gedragen als een drop-in OpenAI API voor het uitvoeren van AI-werklasten op uw eigen hardware (laptop, workstation of on-premise server).

Ik kom steeds terug bij llama.cpp voor lokale inferentie — het geeft je controle die Ollama en anderen abstracten, en het werkt gewoon. Eenvoudig om GGUF-modellen interactief te draaien met llama-cli of een OpenAI-compatibele HTTP API te tonen met llama-server.

AI-ontwikkeltools: De volledige gids voor door AI-aangedreven ontwikkeling

AI-tools voor ontwikkelaars: De complete gids voor AI-gedreven ontwikkeling

Kunstmatige intelligentie (AI) verandert de manier waarop software wordt geschreven, gecontroleerd, uitgezet en onderhouden. Van AI-coderingsassistenten tot GitOps-automatisering en DevOps-werkstromen, ontwikkelaars vertrouwen nu op AI-aangedreven tools in de volledige softwarelevenscyclus.

OpenCode Quickstart: installeren, configureren en gebruiken van de Terminal AI Coding Agent

OpenCode is een open source AI-coding agent die je in de terminal kunt uitvoeren (TUI + CLI) met optionele desktop- en IDE-interfaces. Dit is de OpenCode Snelstartgids: installeren, verifiëren, een model/aanbieder koppelen en echte workflows uitvoeren (CLI + API).

Monitor LLM Inference in Production (2026): Prometheus & Grafana voor vLLM, TGI, llama.cpp

LLM-inferentie lijkt op “gewoon een API” — tot er plots sprongen in latentie optreden, wachtrijen zich opbouwen en je GPUs op 95% geheugen zitten zonder duidelijke verklaring.

OpenClaw Quickstart: Installeer met Docker (Ollama GPU of Claude CPU)

OpenClaw is een zelfgehoste AI-assistent die is ontworpen om te draaien met lokale LLM-runtime zoals Ollama of met cloudgebaseerde modellen zoals Claude Sonnet.

OpenClaw: Een zelfgehost AI-assistent als een echte systeem onder de loep nemen

De meeste lokale AI-installaties beginnen op dezelfde manier: een model, een runtime en een chatinterface.

Workflowtoepassingen implementeren met Temporal in Go: een compleet gids

Temporal is een open-source, enterprise-klasse workflow engine die ontwikkelaars in staat stelt om duurzame, schaalbare en fouttolerante workflow toepassingen te bouwen met behulp van bekende programmeertalen zoals Go.

Observability voor LLM-systemen: Metrieken, Traces, Logs en Testen in Productie

LLM-systemen falen op manieren die traditionele API-bewaking niet kan oppassen — wachtrijen vullen zich stil, GPU-geheugen wordt lang voor CPU-busigheid volledig gebruikt, en latentie explodeert op het batchlaag-niveau in plaats van op het applicatie-laag-niveau. Deze gids behandelt een eind-afwerking observabiliteitsstrategie voor LLM-inferentie en LLM-toepassingen: wat je moet meten, hoe je het moet instrumenteren met Prometheus, OpenTelemetry en Grafana, en hoe je de telemetriepijplijn op schaal moet implementeren.

Chunkingstrategieën in RAG-vergelijking: Alternatieven, afwegingen en voorbeelden

Chunking is de meest onderschatte hyperparameter in Retrieval ‑ Augmenteerde Generatie (RAG): het bepaalt stilzwijgend wat je LLM “ziet”, hoe duur de ingesting wordt, en hoeveel van de contextwindow van de LLM je verbruikt per antwoord.