Rost Glukhov | Persoonlijke website en technische blog

Snelstart van llama.cpp met CLI en server

Ik keer steeds terug naar llama.cpp voor lokale inferentie: het geeft je controle die Ollama en anderen abstracteren, en het werkt gewoon. Het is eenvoudig om GGUF-modellen interactief uit te voeren met llama-cli of een OpenAI-compatibele HTTP-API bloot te stellen met llama-server.

OpenCode Quickstart: Installeren, configureren en gebruiken van de Terminal AI-codingagent

OpenCode is een open-source AI-coding agent die je in de terminal (TUI + CLI) kunt uitvoeren, met optionele desktop- en IDE-interfaces. Dit is de OpenCode Quickstart: installeren, verifiëren, een model/anbieder verbinden en echte workflows uitvoeren (CLI + API).

Airtable voor ontwikkelaars en DevOps - Plannen, API, Webhooks en Go/Python-voorbeelden

Airtable is het beste te beschouwen als een low-code toepassingsplatform dat is opgebouwd rondom een samenwerkende “database-achtige” spreadsheet UI - ideaal voor het snel maken van operationele tools (interne trackers, lichte CRM’s, content pijplijnen, AI evaluatie wachtrijen) waarbij niet-ontwikkelaars een vriendelijke interface nodig hebben, maar ontwikkelaars ook een API oppervlak nodig hebben voor automatisering en integratie.

Monitoren van LLM-inferentie in productie (2026): Prometheus en Grafana voor vLLM, TGI en llama.cpp

LLM-inferentie lijkt op “nog een API” — totdat de latentie piekt, wachtrijen oplopen en je GPU’s 95% geheugen gebruiken zonder duidelijke verklaring.

OpenClaw: Een zelfgehoste AI-assistent bestudeerd als echt systeem

De meeste lokale AI-opstellingen beginnen op dezelfde manier: een model, een runtime-omgeving en een chatinterface.

OpenClaw Snelstart: Installeren met Docker (Ollama GPU of Claude + CPU)

OpenClaw is een zelf-gehoste AI-assistent die is ontworpen om te draaien met lokale LLM-runtimes zoals Ollama of met cloudgebaseerde modellen zoals Claude Sonnet.

Garage vs MinIO vs AWS S3: Objectopslagvergelijking en functiematrix

AWS S3 blijft de “standaard” basislijn voor objectopslag: het is volledig beheerd, sterk consistent en ontworpen voor extreem hoge duurzaamheid en beschikbaarheid.
Garage en MinIO zijn zelfgehoste, S3-compatibele alternatieven: Garage is ontworpen voor lichte, geografisch verspreide kleine- tot middelgrote clusters, terwijl MinIO zich richt op brede S3 API functiebedekking en hoge prestaties bij grotere implementaties.

Workflowtoepassingen implementeren met Temporal in Go: een compleet gids

Temporal is een open-source, enterprise-klasse workflow engine die ontwikkelaars in staat stelt om duurzame, schaalbare en fouttolerante workflow toepassingen te bouwen met behulp van bekende programmeertalen zoals Go.

Garage - S3 compatibele objectopslag Quickstart

Garage is een open-source, zelfgehost, S3-compatibele objectopslag die is ontworpen voor kleine tot middelgrote implementaties, met een sterke nadruk op duurzaamheid en geografische verspreiding.

Observability voor LLM-systemen: Metrieken, Traces, Logs en Testen in Productie

LLM-systemen falen op manieren die traditionele API-bewaking niet kan oppassen — wachtrijen vullen zich stil, GPU-geheugen wordt lang voor CPU-busigheid volledig gebruikt, en latentie explodeert op het batchlaag-niveau in plaats van op het applicatie-laag-niveau. Deze gids behandelt een eind-afwerking observabiliteitsstrategie voor LLM-inferentie en LLM-toepassingen: wat je moet meten, hoe je het moet instrumenteren met Prometheus, OpenTelemetry en Grafana, en hoe je de telemetriepijplijn op schaal moet implementeren.

Chunkingstrategieën in RAG-vergelijking: Alternatieven, afwegingen en voorbeelden

Chunking is de meest onderschatte hyperparameter in Retrieval ‑ Augmenteerde Generatie (RAG): het bepaalt stilzwijgend wat je LLM “ziet”, hoe duur de ingesting wordt, en hoeveel van de contextwindow van de LLM je verbruikt per antwoord.

Browser Automatisering in Go: Selenium, chromedp, Playwright, ZenRows

Het kiezen van de juiste browser automatisering stack en webscraping in Go heeft invloed op snelheid, onderhoud en waar je code draait.

Hoe je bureaubladlauncher op Ubuntu 24 configureert met standaardicoons

Desktop launchers op Ubuntu 24 (en meeste Linux desktops) worden gedefinieerd door .desktop bestanden: kleine, tekstgebaseerde configuratiebestanden die een applicatie of link beschrijven.

Maak AWS CloudFront aan op Pay-as-You-Go (niet het Gratis Plan)

Het AWS Free plan werkt niet voor mij en Pay-as-you-go is verborgen voor nieuwe CloudFront Distributions op de AWS Console .

Browserautomatisering in Python: Playwright, Selenium & Meer

Het kiezen van de juiste browserautomatiseringsstack in Python beïnvloedt de snelheid, stabiliteit en onderhoud. Deze overzicht vergelijkt Playwright vs Selenium vs Puppeteer vs LambdaTest vs ZenRows vs Gauge - met een focus op Python, terwijl aangegeven wordt waar Node.js of andere talen een rol spelen.

Terminal UI: BubbleTea (Go) vs Ratatui (Rust)

Twee sterke opties voor het bouwen van terminalgebruikersinterfaces vandaag zijn BubbleTea (Go) en Ratatui (Rust). Een biedt je een opgezette, Elm-stijl framework; de ander een flexibele, immediate-mode bibliotheek.

Abonneren