AI-systemen: zelfgehoste assistenten, RAG en lokale infrastructuur

Inhoud

De meeste lokale AI-opstellingen beginnen met een model en een runtime.

U downloadt een gekwantiseerd model, start het via Ollama of een andere runtime en begint met het invoeren van prompts. Voor experimenten is dit meer dan voldoende. Maar zodra u verder gaat dan nieuwsgierigheid – zodra u zich zorgen maakt over geheugen, de kwaliteit van ophaling, routeringsbeslissingen of kostenbewustzijn – begint de eenvoud zijn grenzen te tonen.

Deze cluster verkent een andere aanpak: de AI-assistent behandelen niet als een enkele modelaanroep, maar als een gecoördineerd systeem.

Dat onderscheid lijkt op het eerste gezicht subtiel, maar het verandert de manier waarop u naar lokale AI kijkt volledig.

Orkestratie van AI-systemen met lokale LLM’s, RAG en geheugenniveaus


Wat is een AI-systeem?

Een AI-systeem is meer dan alleen een model. Het is een orkestratieniveau dat inferentie, ophaling, geheugen en uitvoering verbindt tot iets dat zich gedraagt als een coherent assistent.

Lokaal een model draaien is infrastructuurwerk. Het ontwerpen van een assistent rondom dat model is systeemwerk.

Als u onze bredere gidsen over de volgende onderwerpen heeft bekeken:

dan weet u al dat inferentie slechts één laag van de stack is.

De AI-systemen-cluster rust bovenop die lagen. Het vervangt ze niet – het combineert ze.


OpenClaw: Een zelfgehost AI-assistantsysteem

OpenClaw is een open-source, zelfgehoste AI-assistent die is ontworpen om te opereren over verschillende berichtendiensten terwijl hij draait op lokale infrastructuur.

Op praktisch niveau:

  • Maakt gebruik van lokale LLM-runtimes zoals Ollama of vLLM
  • Integreert ophaling over geïndexeerde documenten
  • Behoudt geheugen buiten een enkele sessie om
  • Voert tools en automatiseringstaken uit
  • Kan worden instrumenteerd en gemonitord
  • Werkt binnen hardwarebeperkingen

Het is niet slechts een wrapper om een model. Het is een orkestratieniveau dat inferentie, ophaling, geheugen en uitvoering verbindt tot iets dat zich gedraagt als een coherent assistent.

Aan de slag gaan en architectuur:

Context en analyse:

OpenClaw uitbreiden en configureren:

Plugins breiden de OpenClaw-runtime uit – door geheugenbackends, modelproviders, communicatiekanalen, webtools en observability toe te voegen. Skills breiden agentgedrag uit – door te definiëren hoe en wanneer de agent die capaciteiten gebruikt. Productieconfiguratie betekent beide combineren, gevormd rondom wie het systeem daadwerkelijk gebruikt.


Hermes: Een persistente agent met Skills en Tool-sandboxing

Hermes Agent is een zelfgehoste, model-onafhankelijke assistent gericht op persistentie: hij kan draaien als een langlopend proces, tools uitvoeren via configureerbare backends en workflows verbeteren door middel van geheugen en herbruikbare skills.

Op praktisch niveau is Hermes nuttig wanneer u wilt:

  • Een terminal-first assistent die ook kan integreren met berichttoepassingen
  • Providerflexibiliteit via OpenAI-compatibele eindpunten en modelwisseling
  • Tool-uitvoeringsgrenzen via lokale en sandboxed backends
  • Dag-twee operaties met diagnostiek, logs en configuratie-hygiëne

Hermes-profielen zijn volledig geïsoleerde omgevingen – elk met zijn eigen configuratie, geheimen, geheugens, sessies, skills en status – waardoor profielen de echte eenheid van productie-eigendom zijn, niet de individuele skill.


Persistent kennis en geheugen

Sommige problemen worden niet opgelost door een groter contextvenster alleen – ze hebben persistent kennis (grafieken, ingestiepipelines) en agent geheugenplugins (Honcho, Mem0, Hindsight en vergelijkbare backends) nodig die zijn aangesloten op assistenten zoals Hermes of OpenClaw.

  • AI-systemen Geheugen hub – scope van de geheugen-subcluster plus links naar Cognee-gidsen en stack-context
  • Agent geheugenproviders vergeleken – volledige vergelijking van Honcho, OpenViking, Mem0, Hindsight, Holographic, RetainDB, ByteRover, en Supermemory voor Hermes-stijl integraties

Wat maakt AI-systemen anders

Verschillende kenmerken maken AI-systemen de moeite waard om nader te bekijken.

Modelrouting als Ontwerpkiezen

De meeste lokale opstellingen standaardiseren op één model. AI-systemen ondersteunen het intentionele selecteren van modellen.

Dat introduceert vragen:

  • Zouden kleine verzoeken kleinere modellen moeten gebruiken?
  • Wanneer rechtvaardigt redeneren een groter contextvenster?
  • Wat is het kostenverschil per 1.000 tokens?

Deze vragen hangen direct samen met de prestatie-afwegingen die besproken worden in de LLM-prestatiegids en de infrastructuurbeslissingen die worden geschetst in de LLM-hostinggids.

AI-systemen brengen die beslissingen naar de oppervlakte in plaats van ze te verbergen.

Ophaling wordt behandeld als een Evoluerend Component

AI-systemen integreren documentophaling, maar niet als een simplistische “embed en zoek” stap.

Ze erkennen:

  • Chunk-grootte beïnvloedt recall en kosten
  • Hybride zoekopdracht (BM25 + vector) kan beter presteren dan pure dense ophaling
  • Reranking verbetert relevantie ten koste van latentie
  • Indexeerstrategie beïnvloedt geheugengebruik

Deze thema’s sluiten aan bij de diepere architectuuroverwegingen die worden besproken in de RAG-handleiding.

Het verschil is dat AI-systemen ophaling integreren in een levende assistent in plaats van het te presenteren als een geïsoleerde demo.

Geheugen als Infrastructuur

Stateless LLM’s vergeten alles tussen sessies.

AI-systemen introduceren persistente geheugenniveaus. Dat roept direct ontwerpvragen op:

  • Wat moet op lange termijn worden opgeslagen?
  • Wanneer moet context worden samengevat?
  • Hoe voorkomt u token-explosie?
  • Hoe indexeert u geheugen efficiënt?

Die vragen kruisen direct met datalayer-overwegingen uit de data-infrastructuur gids. Voor Hermes Agent specifiek – beperkt twee-bestand geheugen, prefix caching, externe plugins – start met Hermes Agent Geheugensysteem en de cross-framework vergelijking Agent geheugenproviders vergeleken. De AI-systemen Geheugen hub lijst gerelateerde Cognee- en kennislaaggidsen.

Geheugen stopt met het zijn van een feature en wordt een opslagprobleem.

Observability is Geen Optie

De meeste lokale AI-experimenten stoppen bij “het reageert”.

AI-systemen maken het mogelijk om te observeren:

  • Tokengebruik
  • Latentie
  • Hardwarebenutting
  • Throughputpatronen

Dit sluit natuurlijk aan bij de monitoringsprincipes die worden beschreven in de observability-gids.

Als AI draait op hardware, moet het meetbaar zijn als elke andere workload.


Hoe het voelt om te gebruiken

Van buitenaf kan een AI-systeem er nog steeds uitzien als een chatinterface.

Onder de oppervlakte gebeurt er meer.

Als u het vraagt om een technisch rapport dat lokaal is opgeslagen samen te vatten:

  1. Het haalt relevante documentsegmenten op.
  2. Het selecteert een geschikte model.
  3. Het genereert een antwoord.
  4. Het registreert tokengebruik en latentie.
  5. Het werkt persistent geheugen bij indien nodig.

De zichtbare interactie blijft eenvoudig. Het systeemgedrag is gelaagd.

Dat gelaagde gedrag is wat een systeem onderscheidt van een demo.


Waar AI-systemen passen in de Stack

De AI-systemen-cluster bevindt zich op het snijpunt van verschillende infrastructuurlagen:

  • LLM-hosting: De runtimelaag waar modellen worden uitgevoerd (Ollama, vLLM, llama.cpp)
  • RAG: De ophalingslaag die context en grondslag biedt
  • Prestaties: De meetlaag die latentie en throughput bijhoudt
  • Observability: De monitoringslaag die metrics en kostentracking biedt
  • Data-infrastructuur: De opslaglaag die geheugen en indexing afhandelt

Het begrijpen van dat onderscheid is nuttig. Het zelf draaien maakt het verschil duidelijker.

Voor een minimale lokale installatie met OpenClaw, zie de OpenClaw quickstart-handleiding, die een Docker-gebaseerde setup doorloopt met behulp van een lokaal Ollama-model of een cloud-gebaseerde Claude-configuratie.

Als uw opstelling afhankelijk is van Claude, dit beleidsverandering voor agent tools verduidelijkt waarom API-facturatie nu vereist is voor third-party OpenClaw-workflows.


Gerelateerde Bronnen

AI-assistent gidsen:

Infrastructuurlagen:

Abonneren

Ontvang nieuwe berichten over systemen, infrastructuur en AI-engineering.