AI-systemen: zelf gehoste assistenten, RAG en lokale infrastructuur
De meeste lokale AI-opstellingen beginnen met een model en een runtime.
De meeste lokale AI-opstellingen beginnen met een model en een runtime.
Wat gebeurt er eigenlijk als je Ultrawork uitvoert?
Oh My Opencode belooft een “virtueel AI-ontwikkelteam” — Sisyphus die specialisten coördineert, taken die parallel worden uitgevoerd en het magische ultrawork-sleutelwoord dat alles activeert.
Maak kennis met Sisyphus en zijn team van gespecialiseerde agents.
De grootste sprong in capaciteit in OpenCode komt van gespecialiseerde agents: een doordachte scheiding van orkestratie, planning, uitvoering en onderzoek.
Installeer Oh My Opencode en schip sneller uit.
Oh My Opencode maakt van OpenCode een multi-agent codeerhulpmiddel: een orchestrator delegeert werk aan specialistische agenten die parallel draaien.
OpenCode LLM-test — coderings- en nauwkeurigheidscijfers
Ik heb getest hoe OpenCode werkt met verschillende lokaal gehoste LLM’s via Ollama, en ter vergelijking heb ik ook enkele gratis modellen van OpenCode Zen toegevoegd.
OpenHands CLI: snelstart in enkele minuten
OpenHands is een open-source, model-agnostisch platform voor door AI-aangedreven softwareontwikkelingsagenten.
Het stelt een agent in staat om zich meer te gedragen als een programmeerpartner dan als een eenvoudig hulpmiddel voor automatische voltooijing.
Host OpenAI-compatibele API's in enkele minuten met LocalAI.
LocalAI is een self-hosted, local-first inference server die ontworpen is om te gedragen als een drop-in OpenAI API voor het uitvoeren van AI-werklasten op uw eigen hardware (laptop, workstation of on-premise server).
Hoe te installeren, configureren en gebruiken van OpenCode
Ik kom steeds terug bij llama.cpp voor lokale inferentie — het geeft je controle die Ollama en anderen abstracten, en het werkt gewoon. Eenvoudig om GGUF-modellen interactief te draaien met llama-cli of een OpenAI-compatibele HTTP API te tonen met llama-server.
Kunstmatige intelligentie (AI) verandert de manier waarop software wordt geschreven, gecontroleerd, uitgezet en onderhouden. Van AI-coderingsassistenten tot GitOps-automatisering en DevOps-werkstromen, ontwikkelaars vertrouwen nu op AI-aangedreven tools in de volledige softwarelevenscyclus.
Airtable - Vrije planlimieten, API, webhooks, Go & Python.
Airtable is het beste te beschouwen als een low-code toepassingsplatform dat is opgebouwd rondom een samenwerkende “database-achtige” spreadsheet UI - ideaal voor het snel maken van operationele tools (interne trackers, lichte CRM’s, content pijplijnen, AI evaluatie wachtrijen) waarbij niet-ontwikkelaars een vriendelijke interface nodig hebben, maar ontwikkelaars ook een API oppervlak nodig hebben voor automatisering en integratie.
Hoe u OpenCode installeert, configureert en gebruikt
OpenCode is een open source AI-coding agent die je in de terminal kunt uitvoeren (TUI + CLI) met optionele desktop- en IDE-interfaces. Dit is de OpenCode Snelstartgids: installeren, verifiëren, een model/aanbieder koppelen en echte workflows uitvoeren (CLI + API).
Monitor LLM met Prometheus en Grafana
LLM-inferentie lijkt op “gewoon een API” — tot er plots sprongen in latentie optreden, wachtrijen zich opbouwen en je GPUs op 95% geheugen zitten zonder duidelijke verklaring.
Installeer OpenClaw lokaal met Ollama
OpenClaw is een zelfgehoste AI-assistent die is ontworpen om te draaien met lokale LLM-runtime zoals Ollama of met cloudgebaseerde modellen zoals Claude Sonnet.
OpenClaw AI Assistant Handleiding
De meeste lokale AI-installaties beginnen op dezelfde manier: een model, een runtime en een chatinterface.
Eind-aan-eind observabiliteitsstrategie voor LLM-inferentie en LLM-toepassingen
LLM-systemen falen op manieren die traditionele API-bewaking niet kan oppassen — wachtrijen vullen zich stil, GPU-geheugen wordt lang voor CPU-busigheid volledig gebruikt, en latentie explodeert op het batchlaag-niveau in plaats van op het applicatie-laag-niveau. Deze gids behandelt een eind-afwerking observabiliteitsstrategie voor LLM-inferentie en LLM-toepassingen: wat je moet meten, hoe je het moet instrumenteren met Prometheus, OpenTelemetry en Grafana, en hoe je de telemetriepijplijn op schaal moet implementeren.
Vergelijking van chunkingstrategieën in RAG
Chunking is de meest onderschatte hyperparameter in Retrieval ‑ Augmenteerde Generatie (RAG): het bepaalt stilzwijgend wat je LLM “ziet”, hoe duur de ingesting wordt, en hoeveel van de contextwindow van de LLM je verbruikt per antwoord.