AI-systemen: zelf gehoste assistenten, RAG en lokale infrastructuur
De meeste lokale AI-opstellingen beginnen met een model en een runtime.
De meeste lokale AI-opstellingen beginnen met een model en een runtime.
Monitor LLM met Prometheus en Grafana
LLM-inferentie lijkt op “gewoon een API” — tot er plots sprongen in latentie optreden, wachtrijen zich opbouwen en je GPUs op 95% geheugen zitten zonder duidelijke verklaring.
Garage in Docker draaien in minuten
Garage is een open-source, zelfgehost, S3-compatibele objectopslag die is ontworpen voor kleine tot middelgrote implementaties, met een sterke nadruk op duurzaamheid en geografische verspreiding.
Metrische gegevens, dashboards en waarschuwingen voor productiesystemen — Prometheus, Grafana, Kubernetes en AI-workloads.
Observabiliteit is de basis van betrouwbare productiesystemen.
Zonder metrieken, dashboards en waarschuwingen drift Kubernetes-clusters, falen AI-werkbelastingen stilzwijgend en blijven latentietoename regressies ongemerkt tot gebruikers klagen.