Rost Glukhov | Persoonlijke website en technische blog

Evergreen Notes: Schrijf notities die in de loop van de tijd aan waarde winnen

De meeste engineeringnotities worden één keer geschreven en daarna vergeten. Je vastlegt iets tijdens een debugsessie, plakt het ergens en vind het twee jaar later zonder context waarom het destijds belangrijk was.

Digitale tuinen: kennis laten groeien in plaats van het alleen publiceren

Het dominante model voor het publiceren van kennis online is sinds het begin van de 2000s niet veel veranderd: schrijf iets, maak het op, publiceer het, ga verder.

De PARA-methode voor engineers: kennis organiseren op basis van actie

Het indelen van notities op onderwerp lijkt logisch, totdat je notities over PostgreSQL in vijf verschillende mappen hebt en de ene die relevant is voor het probleem van vandaag, niet kunt vinden.

Multi-Model Systeemontwerp: Wanneer één model niet voldoende is

Single-modelsystemen zijn eenvoudig. Multi-modelsystemen zijn krachtig. De uitdaging ligt niet in het kiezen van modellen, maar in het ontwerpen van de architectuur die ze orchestreert.

Modellrouting: Stop met het gebruik van één model voor alles

Het draaien van een model met 70 miljard parameters om een e-mail van 200 woorden samen te vatten, is zonde van de middelen. Het gebruiken van een model van 3 miljard parameters om productiecode te reviewen, is roekeloos. De meeste systemen zitten ergens daar tussenin — en daar komt modelrouting om de hoek kijken.

LLM-beveiligingsmaatregelen in de praktijk: wat daadwerkelijk werkt

LLM’s zijn onvoorspelbaar. Ze hallucineren, lekken data, genereren schadelijke content of weigeren legitieme verzoeken. Guardrails beperken het gedrag van modellen zonder in te leveren op capaciteit.

Kostenoptimalisatie voor LLM-systemen: waar het geld echt naartoe gaat

De kosten van LLM’s schalen lineair met het gebruik. Een systeem dat 10.000 verzoeken per dag verwerkt tegen $0,01 per verzoek kost dagelijks $100 — jaarlijks $365. Op enterprise-schaal is dat meer dan $10.000.

Geheugen verandert assistenten van reactief naar persistent, maar het is ook waar veel systemen stil verlopen. Onderzoeken betoogen dat de splitsing tussen kortetermijn- en langetermijngeheugen niet langer voldoende is voor modern agentengeheugen; OpenAI en LangGraph SDK’s wijzen op een eenvoudigere stack — werkgeheugen, duurzame staat en ophaling.

AI-assistent-architectuur: LLM, geheugen, tools, routing, observability

Een productie-AI-assistent is niet zomaar “een LLM met een prompt”. Het is een systeem dat intentie accepteert, staat behoudt, beslist wanneer het moet ophalen of handelen, en voldoende runtime-details blootlegt om fouten te debuggen.

AI voor kennisbeheer: Werkelijke workflows die standhouden

AI vervangt kennismanagement niet; het verandert de vorm ervan voor zowel individuen als teams.

Zettelkasten voor ontwikkelaars: een praktische methode die werkt

Ontwikkelaars lijden niet gewoonlijk onder een gebrek aan informatie. Wij lijden onder teveel ervan.

OpenClaw vs Hermes Agent: Sterren, Downloads & Gebruik 2026

Open-source AI-agentframeworks winnen explosief aan populariteit op GitHub. Twee projecten die centraal staan in het ecosysteem van zelfgehoste AI-systemen — OpenClaw en Hermes Agent — zijn zo ver vooruit gelopen dat de rest van het veld strijdt om een verre derde plaats.

Qwen 3.6 27B en 35B MTP versus standaard op een 16 GB GPU

Ik heb de prestaties van speculatief decoderen (Multi-Token Prediction, MTP) getest in Qwen 3.6 27B en 35B op een RTX 4080 met 16 GB VRAM.

Alle llama.cpp-routermodellen opnieuw laden zonder opnieuw te starten

Routermodus van llama.cpp is een van de meest nuttige wijzigingen aan llama-server in jaren. Het geeft lokale LLM-beheerders eindelijk iets dat lijkt op de modelbeheerservaring die mensen verwachten van Ollama, terwijl het de ruwe prestaties en lage-level controle behoudt die llama.cpp in de eerste plaats de moeite waard maken.

Retrieval versus Representatie in Kennissystemen

De meeste moderne kennissystemen optimaliseren de terugwinning (retrieval), en dat is begrijpelijk. Zoeken is zichtbaar, eenvoudig te demonstreren en voelt magisch wanneer het werkt. Typ een vraag, krijg een antwoord.

LLM Wiki - Samengestelde kennis die RAG niet kan vervangen

De uitgangspunt is eenvoudig: gecompileerde kennis is herbruikbaarder dan opgeroepen fragmenten. RAG (Retrieval-Augmented Generation) is het standaardantwoord geworden op een eenvoudige vraag – hoe geef ik een LLM (Large Language Model) toegang tot externe kennis?

Abonneren