AI-systemen: zelfgehoste assistenten, RAG en lokale infrastructuur
De meeste lokale AI-opstellingen beginnen met een model en een runtime.
U downloadt een gekwantiseerd model, start het via Ollama of een andere runtime en begint met het invoeren van prompts. Voor experimenten is dit meer dan voldoende. Maar zodra u verder gaat dan nieuwsgierigheid – zodra u zich zorgen maakt over geheugen, de kwaliteit van ophaling, routeringsbeslissingen of kostenbewustzijn – begint de eenvoud zijn grenzen te tonen.
Deze cluster verkent een andere aanpak: de AI-assistent behandelen niet als een enkele modelaanroep, maar als een gecoördineerd systeem.
Dat onderscheid lijkt op het eerste gezicht subtiel, maar het verandert de manier waarop u naar lokale AI kijkt volledig.

Wat is een AI-systeem?
Een AI-systeem is meer dan alleen een model. Het is een orkestratieniveau dat inferentie, ophaling, geheugen en uitvoering verbindt tot iets dat zich gedraagt als een coherent assistent.
Lokaal een model draaien is infrastructuurwerk. Het ontwerpen van een assistent rondom dat model is systeemwerk.
Als u onze bredere gidsen over de volgende onderwerpen heeft bekeken:
- LLM-hosting in 2026: Lokale, zelfgehoste en cloudinfrastructuur vergeleken
- Retrieval-Augmented Generation (RAG) Handleiding: Architectuur, Implementatie en Productiegids
- LLM-prestaties in 2026: Benchmarks, Bottlenecks & Optimalisatie
- Observability voor AI-systemen
dan weet u al dat inferentie slechts één laag van de stack is.
De AI-systemen-cluster rust bovenop die lagen. Het vervangt ze niet – het combineert ze.
OpenClaw: Een zelfgehost AI-assistantsysteem
OpenClaw is een open-source, zelfgehoste AI-assistent die is ontworpen om te opereren over verschillende berichtendiensten terwijl hij draait op lokale infrastructuur.
Op praktisch niveau:
- Maakt gebruik van lokale LLM-runtimes zoals Ollama of vLLM
- Integreert ophaling over geïndexeerde documenten
- Behoudt geheugen buiten een enkele sessie om
- Voert tools en automatiseringstaken uit
- Kan worden instrumenteerd en gemonitord
- Werkt binnen hardwarebeperkingen
Het is niet slechts een wrapper om een model. Het is een orkestratieniveau dat inferentie, ophaling, geheugen en uitvoering verbindt tot iets dat zich gedraagt als een coherent assistent.
Aan de slag gaan en architectuur:
- OpenClaw quickstart-handleiding – Docker-gebaseerde installatie met behulp van een lokaal Ollama-model of een cloud-gebaseerde Claude-configuratie
- OpenClaw systeemoverzicht – architectuurverkennend hoe OpenClaw afwijkt van eenvoudigere lokale opstellingen
- NemoClaw-handleiding voor veilige OpenClaw-operaties – security-first OpenClaw-pad met OpenShell-sandboxing, beleidstiers, gerouteerde inferentie en dag-twee operaties
Context en analyse:
- OpenClaw opkomst en daling tijdlijn – de economie achter de virale piek, de abonnementsstopzetting in april 2026, en wat de ineenstorting onthult over AI-hypecycli
OpenClaw uitbreiden en configureren:
Plugins breiden de OpenClaw-runtime uit – door geheugenbackends, modelproviders, communicatiekanalen, webtools en observability toe te voegen. Skills breiden agentgedrag uit – door te definiëren hoe en wanneer de agent die capaciteiten gebruikt. Productieconfiguratie betekent beide combineren, gevormd rondom wie het systeem daadwerkelijk gebruikt.
- OpenClaw Plugins – Ecosystemengids en Praktische Keuzes – native plugintypen, CLI-levenscyclus, veiligheidsrails en concrete keuzes voor geheugen, kanalen, tools en observability
- OpenClaw Skills Ecosystem en Praktische Productiekeuzes – ClawHub-ontdekking, installatie- en verwijderingsstromen, per-roll stacks, en de skills die het waard zijn om in 2026 te behouden
- OpenClaw Productie-opstellingspatronen met Plugins en Skills – complete plugin- en skill-configuraties per gebruikerstype: ontwikkelaar, automatisering, onderzoek, ondersteuning en groei – elk met gecombineerde installatiescripts
Hermes: Een persistente agent met Skills en Tool-sandboxing
Hermes Agent is een zelfgehoste, model-onafhankelijke assistent gericht op persistentie: hij kan draaien als een langlopend proces, tools uitvoeren via configureerbare backends en workflows verbeteren door middel van geheugen en herbruikbare skills.
Op praktisch niveau is Hermes nuttig wanneer u wilt:
- Een terminal-first assistent die ook kan integreren met berichttoepassingen
- Providerflexibiliteit via OpenAI-compatibele eindpunten en modelwisseling
- Tool-uitvoeringsgrenzen via lokale en sandboxed backends
- Dag-twee operaties met diagnostiek, logs en configuratie-hygiëne
Hermes-profielen zijn volledig geïsoleerde omgevingen – elk met zijn eigen configuratie, geheimen, geheugens, sessies, skills en status – waardoor profielen de echte eenheid van productie-eigendom zijn, niet de individuele skill.
- Hermes AI-assistent - Installatie, Setup, Workflow en Probleemoplossing – installatie, provider-setup, workflowpatronen en probleemoplossing
- Hermes Agent CLI cheat sheet — commando’s, vlaggen en slash-shortcuts – tabulaire index van
hermessubcommando’s, globale vlaggen, gateway- en profieltooling, en veelgebruikte slash-shortcuts - Hermes Agent Geheugensysteem: Hoe Persistent AI-Geheugen Werkelijk Werkt – diepgaande technische gids over het twee-bestand kerngeheugen, frozen snapshot-patroon, alle 8 externe providers, en de filosofie van beperkt geheugen
- Hermes AI-assistent Skills voor Echte Productie-opstellingen – profiel-first skill-architectuur voor ingenieurs, onderzoekers, operators en executive workflows
- Hermes Agent Skill Authoring — SKILL.md Structuur en Best Practices – praktische
SKILL.mdlay-out, metadata, conditionele activatie, en probleemoplossing wanneer skills verdwijnen uit de index - Kanban in Hermes Agent voor Zelfgehoste LLM-workflows – praktische controlepatronen voor dispatcher-concurrentie, afhankelijkheidsketens, en cron-gebaseerde batching op zelfgehoste gateways
Persistent kennis en geheugen
Sommige problemen worden niet opgelost door een groter contextvenster alleen – ze hebben persistent kennis (grafieken, ingestiepipelines) en agent geheugenplugins (Honcho, Mem0, Hindsight en vergelijkbare backends) nodig die zijn aangesloten op assistenten zoals Hermes of OpenClaw.
- AI-systemen Geheugen hub – scope van de geheugen-subcluster plus links naar Cognee-gidsen en stack-context
- Agent geheugenproviders vergeleken – volledige vergelijking van Honcho, OpenViking, Mem0, Hindsight, Holographic, RetainDB, ByteRover, en Supermemory voor Hermes-stijl integraties
Wat maakt AI-systemen anders
Verschillende kenmerken maken AI-systemen de moeite waard om nader te bekijken.
Modelrouting als Ontwerpkiezen
De meeste lokale opstellingen standaardiseren op één model. AI-systemen ondersteunen het intentionele selecteren van modellen.
Dat introduceert vragen:
- Zouden kleine verzoeken kleinere modellen moeten gebruiken?
- Wanneer rechtvaardigt redeneren een groter contextvenster?
- Wat is het kostenverschil per 1.000 tokens?
Deze vragen hangen direct samen met de prestatie-afwegingen die besproken worden in de LLM-prestatiegids en de infrastructuurbeslissingen die worden geschetst in de LLM-hostinggids.
AI-systemen brengen die beslissingen naar de oppervlakte in plaats van ze te verbergen.
Ophaling wordt behandeld als een Evoluerend Component
AI-systemen integreren documentophaling, maar niet als een simplistische “embed en zoek” stap.
Ze erkennen:
- Chunk-grootte beïnvloedt recall en kosten
- Hybride zoekopdracht (BM25 + vector) kan beter presteren dan pure dense ophaling
- Reranking verbetert relevantie ten koste van latentie
- Indexeerstrategie beïnvloedt geheugengebruik
Deze thema’s sluiten aan bij de diepere architectuuroverwegingen die worden besproken in de RAG-handleiding.
Het verschil is dat AI-systemen ophaling integreren in een levende assistent in plaats van het te presenteren als een geïsoleerde demo.
Geheugen als Infrastructuur
Stateless LLM’s vergeten alles tussen sessies.
AI-systemen introduceren persistente geheugenniveaus. Dat roept direct ontwerpvragen op:
- Wat moet op lange termijn worden opgeslagen?
- Wanneer moet context worden samengevat?
- Hoe voorkomt u token-explosie?
- Hoe indexeert u geheugen efficiënt?
Die vragen kruisen direct met datalayer-overwegingen uit de data-infrastructuur gids. Voor Hermes Agent specifiek – beperkt twee-bestand geheugen, prefix caching, externe plugins – start met Hermes Agent Geheugensysteem en de cross-framework vergelijking Agent geheugenproviders vergeleken. De AI-systemen Geheugen hub lijst gerelateerde Cognee- en kennislaaggidsen.
Geheugen stopt met het zijn van een feature en wordt een opslagprobleem.
Observability is Geen Optie
De meeste lokale AI-experimenten stoppen bij “het reageert”.
AI-systemen maken het mogelijk om te observeren:
- Tokengebruik
- Latentie
- Hardwarebenutting
- Throughputpatronen
Dit sluit natuurlijk aan bij de monitoringsprincipes die worden beschreven in de observability-gids.
Als AI draait op hardware, moet het meetbaar zijn als elke andere workload.
Hoe het voelt om te gebruiken
Van buitenaf kan een AI-systeem er nog steeds uitzien als een chatinterface.
Onder de oppervlakte gebeurt er meer.
Als u het vraagt om een technisch rapport dat lokaal is opgeslagen samen te vatten:
- Het haalt relevante documentsegmenten op.
- Het selecteert een geschikte model.
- Het genereert een antwoord.
- Het registreert tokengebruik en latentie.
- Het werkt persistent geheugen bij indien nodig.
De zichtbare interactie blijft eenvoudig. Het systeemgedrag is gelaagd.
Dat gelaagde gedrag is wat een systeem onderscheidt van een demo.
Waar AI-systemen passen in de Stack
De AI-systemen-cluster bevindt zich op het snijpunt van verschillende infrastructuurlagen:
- LLM-hosting: De runtimelaag waar modellen worden uitgevoerd (Ollama, vLLM, llama.cpp)
- RAG: De ophalingslaag die context en grondslag biedt
- Prestaties: De meetlaag die latentie en throughput bijhoudt
- Observability: De monitoringslaag die metrics en kostentracking biedt
- Data-infrastructuur: De opslaglaag die geheugen en indexing afhandelt
Het begrijpen van dat onderscheid is nuttig. Het zelf draaien maakt het verschil duidelijker.
Voor een minimale lokale installatie met OpenClaw, zie de OpenClaw quickstart-handleiding, die een Docker-gebaseerde setup doorloopt met behulp van een lokaal Ollama-model of een cloud-gebaseerde Claude-configuratie.
Als uw opstelling afhankelijk is van Claude, dit beleidsverandering voor agent tools verduidelijkt waarom API-facturatie nu vereist is voor third-party OpenClaw-workflows.
Gerelateerde Bronnen
AI-assistent gidsen:
- OpenClaw systeemoverzicht
- OpenClaw opkomst en daling tijdlijn
- OpenClaw quickstart-handleiding
- OpenClaw Plugins – Ecosystemengids en Praktische Keuzes
- OpenClaw Skills Ecosystem en Praktische Productiekeuzes
- OpenClaw Productie-opstellingspatronen met Plugins en Skills
- Hermes AI-assistent - Installatie, Setup, Workflow en Probleemoplossing
- Hermes Agent Geheugensysteem: Hoe Persistent AI-Geheugen Werkelijk Werkt
- AI-systemen Geheugen hub
- Agent geheugenproviders vergeleken
- Hermes AI-assistent Skills voor Echte Productie-opstellingen
- Hermes Agent Skill Authoring — SKILL.md Structuur en Best Practices
Infrastructuurlagen:
- LLM-hosting in 2026: Lokale, zelfgehoste en cloudinfrastructuur vergeleken
- Retrieval-Augmented Generation (RAG) Handleiding: Architectuur, Implementatie en Productiegids
- LLM-prestaties in 2026: Benchmarks, Bottlenecks & Optimalisatie
- Observability voor AI-systemen
- Data-infrastructuur voor AI-systemen