AI-system: Självhostade assistenter, RAG och lokal infrastruktur
De flesta lokala AI-installationer börjar med en modell och en körningstid (runtime).
Du laddar ner en kvantiserad modell, startar den via Ollama eller en annan körningstid och börjar med att ge instruktioner (prompting). För experiment är detta mer än tillräckligt. Men så fort du går bort från nyfikenhet — när du börjar bry dig om minne, hämtkvalitet, routningsbeslut eller kostnadskänslighet — börjar enkelheten visa sina begränsningar.
Denna kluster utforskar ett annat tillvägagångssätt: att behandla AI-assistenten inte som ett enskilt modellanrop, utan som ett samordnat system.
Den skillnaden kan verka subtil i början, men den förändrar hur du tänker på lokal AI helt och hållet.

Vad är ett AI-system?
Ett AI-system är mer än en modell. Det är ett orkestreringslager som kopplar ihop inferens, hämtning, minne och exekvering till något som beter sig som en sammanhängande assistent.
Att köra en modell lokalt är infrastrukturarbete. Att designa en assistent kring den modellen är systemarbete.
Om du har utforskat våra bredare guider om:
- LLM-hostning 2026: Lokal, självhostad och molninfrastruktur jämförs
- Guide för Retrieval-Augmented Generation (RAG): Arkitektur, implementering och produktion
- LLM-prestanda 2026: Benchmarks, flaskhalsar och optimering
- Observabilitet för AI-system
vet du redan att inferens bara är ett lager i stacken.
AI Systems-klustern sitter ovanpå dessa lager. Den ersätter dem inte — den kombinerar dem.
OpenClaw: Ett självhostat AI-assistentsystem
OpenClaw är ett öppen källkod, självhostat AI-assistent designat för att operera över meddelandepattformar medan det kör på lokal infrastruktur.
På en praktisk nivå:
- Använder lokala LLM-körningstider som Ollama eller vLLM
- Integrerar hämtning över indexerade dokument
- Underhåller minne utöver en enda session
- Exekverar verktyg och automationuppgifter
- Kan instrumenteras och observeras
- Opererar inom hårdvarubegränsningar
Det är inte bara en wrapper runt en modell. Det är ett orkestreringslager som kopplar ihop inferens, hämtning, minne och exekvering till något som beter sig som en sammanhängande assistent.
Kom igång och arkitektur:
- OpenClaw snabbstartsguide — Docker-baserad installation med antingen en lokal Ollama-modell eller en molnbaserad Claude-konfiguration
- Översikt över OpenClaw-systemet — arkitekturell utforskning av hur OpenClaw skiljer sig från enklare lokala installationer
- NemoClaw-guide för säkra OpenClaw-operationer — säkerhetsfokuserad OpenClaw-väg med OpenShell-sandboxing, policytillstånd, ruttad inferens och dag-två-operationer
Kontext och analys:
- OpenClaws uppgång och fall: tidslinje — ekonomin bakom den virala toppen, prenumerationsavbrottet i april 2026, och vad kollapsen avslöjar om AI-hypecykler
Utvidgning och konfiguration av OpenClaw:
Plugins utvidgar OpenClaw-körningstiden — och lägger till minnesbackends, modellleverantörer, kommunikationskanaler, webbverktyg och observabilitet. Färdigheter (Skills) utvidgar agentbeteende — och definierar hur och när agenten använder dessa kapaciteter. Produktionskonfiguration innebär att kombinera båda, formad kring vem som faktiskt använder systemet.
- OpenClaw-plugins — Ekosystemguide och praktiska val — inbyggda plugintyper, CLI-livscykel, säkerhetsstänger och konkreta val för minne, kanaler, verktyg och observabilitet
- OpenClaw-färdighetsekosystem och praktiska produktionsval — ClawHub-upptäckt, installations- och avinstallationsflöden, per-roll-stacks och de färdigheter som är värda att behålla 2026
- OpenClaw-produktionsinställningar med plugins och färdigheter — kompletta plugin- och färdighetskonfigurationer per användartyp: utvecklare, automation, forskning, support och tillväxt — var och en med kombinerade installationsskript
Hermes: En beständig agent med färdigheter och verktygsandboxing
Hermes Agent är en självhostad, modellagnostisk assistent fokuserad på beständig drift: den kan köras som en långlivad process, exekvera verktyg genom konfigurerbara backends och förbättra arbetsflöden över tid genom minne och återanvändbara färdigheter.
På en praktisk nivå är Hermes användbar när du vill ha:
- En terminalfokuserad assistent som också kan brygga in i meddelandeappar
- Leverantörsflexibilitet genom OpenAI-kompatibla slutpunkter och modellbyte
- Gränser för verktygsexekvering via lokala och sandboxade backends
- Dag-två-operationer med diagnostik, loggar och konfigurationshygien
Hermes-profiler är fullt isolerade miljöer — var och en med sin egen konfiguration, hemligheter, minnen, sessioner, färdigheter och tillstånd — vilket gör profiler till den verkliga enheten för produktionsägarskap, inte den enskilda färdigheten.
- Hermes AI-assistent - Installation, konfiguration, arbetsflöde och felsökning — installation, leverantörsinställning, arbetsflödesmönster och felsökning
- Hermes Agent CLI-fuskort — kommandon, flaggor och snabblänkar — tabellindex över
hermes-subkommandon, globala flaggor, gateway- och profilverktyg, och vanliga snabblänkar - Hermes Agent-minnessystem: Hur beständig AI-minne faktiskt fungerar — djup teknisk guide till 2-fils kärnminnet, fryst snapshot-mönster, alla 8 externa leverantörer och filosofin bakom begränsat minne
- Hermes AI-assistent-färdigheter för verkliga produktionsinstallationer — profilförst färdighetsarkitektur för ingenjörer, forskare, operatörer och exekutiva arbetsflöden
- Hermes Agent-färdighetsautoring — SKILL.md-struktur och bästa praxis — praktisk
SKILL.md-layout, metadata, villkorlig aktivering och felsökning när färdigheter försvinner från indexet - Kanban i Hermes Agent för självhostade LLM-arbetsflöden — praktiska kontrollmönster för dispatcher-konkurrens, beroendekedjor och cron-baserad batching på självhostade gateways
Beständig kunskap och minne
Vissa problem löses inte av ett större kontextfönster ensamt — de behöver beständig kunskap (grafer, inläsningspipeliner) och agentminnesplugins (Honcho, Mem0, Hindsight och liknande backends) kopplade in i assistenter som Hermes eller OpenClaw.
- AI Systems-minneshub — omfattning av minnesunderklustern plus länkar till Cognee-guider och stackkontext
- Jämförelse av agentminnesleverantörer — fullständig jämförelse av Honcho, OpenViking, Mem0, Hindsight, Holographic, RetainDB, ByteRover och Supermemory för Hermes-liknande integrationer
Vad som gör AI-system olika
Flera egenskaper gör AI-system värda att undersöka närmare.
Modellrouting som ett designval
De flesta lokala installationer standardiserar på en modell. AI-system stödjer medveten modellval.
Det introducerar frågor:
- Borde små begäran använda mindre modeller?
- När rättfärdigar resonemang ett större kontextfönster?
- Vad är kostnadsskillnaden per 1 000 token?
Dessa frågor hänger direkt ihop med prestandakompromisser som diskuteras i LLM-prestandaguiden och infrastrukturbeslut som beskrivs i LLM-hostningsguiden.
AI-system synliggör dessa beslut istället för att dölja dem.
Hämtning behandlas som en utvecklande komponent
AI-system integrerar dokumenthämtning, men inte som ett enklaste “embed och sök”-steg.
De erkänner:
- Chunk-storlek påverkar recall och kostnad
- Hybrid sökning (BM25 + vektor) kan överträffa ren dense hämtning
- Reranking förbättrar relevans till kostnad av latency
- Indexeringsstrategi påverkar minnesanvändning
Dessa teman stämmer överens med de djupare arkitekturella överväganden som diskuteras i RAG-tutorialen.
Skillnaden är att AI-system bäddar in hämtning i en levande assistent snarare än att presentera det som en isolerad demo.
Minne som infrastruktur
Stateless LLM:er glömmer allt mellan sessioner.
AI-system introducerar beständiga minneslager. Det väcker omedelbart designfrågor:
- Vad bör lagras långsiktigt?
- När bör kontext sammanfattas?
- Hur förhindrar du token-explosion?
- Hur indexerar du minne effektivt?
Dessa frågor korsar direkt med datalageröverväganden från datainfrastruktur-guiden. För Hermes Agent specifikt — begränsat 2-fils minne, prefix-caching, externa plugins — börja med Hermes Agent-minnessystem och den tvärsystemjämförelsen Jämförelse av agentminnesleverantörer. AI Systems-minneshubben listar relaterade Cognee- och kunskapslagerguider.
Minne slutar vara en funktion och blir ett lagringsproblem.
Observabilitet är inte valfritt
De flesta lokala AI-experiment stoppar vid “den svarar”.
AI-system gör det möjligt att observera:
- Tokenanvändning
- Latency
- Hårdvaruutnyttjande
- Genomflödesmönster
Detta kopplas naturligt till övervakningsprinciperna som beskrivs i observabilitetsguiden.
Om AI körs på hårdvara, bör den vara mätbar som någon annan belastning.
Vad det känns som att använda
Utanifrån kan ett AI-system fortfarande se ut som ett chattgränssnitt.
Under ytan händer mer.
Om du ber den sammanfatta en teknisk rapport som lagras lokalt:
- Den hämtar relevanta dokumentsegment.
- Den väljer en lämplig modell.
- Den genererar ett svar.
- Den registrerar tokenanvändning och latency.
- Den uppdaterar beständigt minne vid behov.
Den synliga interaktionen förblir enkel. Systembeteendet är lagerindelad.
Detta lagerindelade beteende är det som skiljer ett system från en demo.
Var AI-system passar i stacken
AI Systems-klustern sitter vid skärningspunkten mellan flera infrastrukturstrakten:
- LLM-hostning: Körningstidslagret där modeller exekveras (Ollama, vLLM, llama.cpp)
- RAG: Hämtlagret som ger kontext och grounding
- Prestanda: Mätlagret som spårar latency och genomflöde
- Observabilitet: Övervakningslagret som ger metrik och kostnadsspårning
- Datainfrastruktur: Lagringslagret som hanterar minne och indexering
Att förstå denna distinktion är användbart. Att köra det själv gör skillnaden tydligare.
För en minimal lokal installation med OpenClaw, se OpenClaw snabbstartsguide, som går igenom en Docker-baserad installation med antingen en lokal Ollama-modell eller en molnbaserad Claude-konfiguration.
Om din installation beror på Claude, denna policyändring för agentverktyg förtydligar varför API-fakturering nu krävs för tredjeparts OpenClaw-arbetsflöden.
Relaterade resurser
AI-assistentguider:
- Översikt över OpenClaw-systemet
- OpenClaws uppgång och fall: tidslinje
- OpenClaw snabbstartsguide
- OpenClaw-plugins — Ekosystemguide och praktiska val
- OpenClaw-färdighetsekosystem och praktiska produktionsval
- OpenClaw-produktionsinställningar med plugins och färdigheter
- Hermes AI-assistent - Installation, konfiguration, arbetsflöde och felsökning
- Hermes Agent-minnessystem: Hur beständig AI-minne faktiskt fungerar
- AI Systems-minneshub
- Jämförelse av agentminnesleverantörer
- Hermes AI-assistent-färdigheter för verkliga produktionsinstallationer
- Hermes Agent-färdighetsautoring — SKILL.md-struktur och bästa praxis
Infrastrukturstrakten: