Rost Glukhov | Personlig webbplats och teknisk blogg

TGI – Text Generation Inference – Installation, konfiguration och felsökning

Text Generation Inference (TGI) har en mycket specifik energi. Det är inte den nyaste killen på inferensgatan, men det är den som redan har lärt sig hur produktion bryts –

LLM-benckmark med 16 GB VRAM med llama.cpp (hastighet och kontext)

Här jämför jag hastigheten hos flera LLM:s (storspråkmodeller) som körs på GPU med 16 GB VRAM, och väljer den bästa för egen hosting.

RTX 5090 i Australien: Prissättning, lager och verkligheten i mars 2026

Australien har lagervaror av RTX 5090. Knappast. Och om du hittar en, kommer du att betala en premie som känns frånkopplad från verkligheten.

Fjärråtkomst till Ollama via Tailscale eller WireGuard utan publika portar.

Ollama är som mest lyckligt när det behandlas som en lokal daemon: CLI:n och dina appar pratar med en loopback HTTP-API, och resten av nätverket får aldrig veta att det finns.

Strukturerad loggning i Go med slog för observabilitet och larmhantering

Loggar är ett felsökningsgränssnitt som du fortfarande kan använda när systemet är i brand. Problemet är att rena textloggar åldras dåligt: så fort du behöver filtrering, aggregering och alarmering börjar du parsar meningar.

Ollama i Docker Compose med GPU och bestående modelllagring

Ollama fungerar utmärkt på “bare metal”. Det blir ännu mer intressant när du behandlar det som en tjänst: en stabil slutpunkt, fastlagda versioner, beständig lagring och en GPU som antingen är tillgänglig eller inte.

Ollama bakom en omvänd proxy med Caddy eller Nginx för HTTPS-strömning

Att köra Ollama bakom en omvänd proxy är det enklaste sättet att få HTTPS, valfri åtkontroll och förutsägbart strömmande beteende.

Textinbäddningar för RAG och sökning – Python, Ollama, OpenAI-kompatibla API:er

Om du arbetar med retrieval-augmented generation (RAG), går detta avsnitt igenom textembeddings i enkla termer – vad de är, hur de passar in i sökning och hämtning, och hur du anropar två vanliga lokala konfigurationer från Python med hjälp av Ollama eller en OpenAI-kompatibel HTTP-API (vilket många llama.cpp-baserade servrar exponerar).

Netlify för Hugo och statiska sajter: priser, gratisnivå och alternativ

Netlify är ett av de mest utvecklarvänliga sätten att leverera Hugo-sajter och moderna webbappar med ett arbetsflöge av produktionskvalitet: förhandsvisnings-URL:ar för varje pull request, atomiska leveranser, en global CDN samt valbara serverless- och edge-funktioner.

Apache Flink på K8s och Kafka: PyFlink, Go, drift och hanterad prissättning

Apache Flink är ett ramverk för statusbevarande beräkningar över obegränsade och begränsade dataströmmar.

Neo4j-grafdatabas för GraphRAG, installation, Cypher, vektorer och drift.

Neo4j är det verktyg du vänder dig till när relationerna är datan. Om din domän ser ut som en whiteboard med cirklar och pilar blir det smärtsamt att tvinga den in i tabeller.

Värdade e-posttjänster för egna domäner jämförda: Workspace, Microsoft 365, Zoho, Proton och WorkMail.

Att ha e-post på din egen domän låter som en veckoslutsuppgift för DNS. I praktiken är det ett litet distribuerat system med ett arvtal som är tjugo år gammalt.

IndexNow förklarat – meddela sökmotorer när du publicerar

Statiska webbplatser och bloggar ändras när du deployar. Sökmotorer som stöder IndexNow kan få veta om dessa förändringar utan att vänta på nästa blind krypning.

SGLang-Start: Installera, konfigurera och servera LLM via OpenAI API

SGLang är ett högpresterande ramverk för servering av stora språkmodeller och multimodala modeller, byggt för att leverera inferens med låg latens och hög genomströmning över allt från en enda GPU till distribuerade kluster.

Llama.swap Modellväxlar – Snabbstart för lokala, OpenAI-kompatibla LLM:ar

Snart kastar du mellan vLLM, llama.cpp och mer – varje stack på sin egen port. Allt nedströms vill fortfarande ha en enda bas-URL /v1; annars fortsätter du att shuffla med portar, profiler och skript för enskilda fall. llama-swap är /v1-proxyn som ligger framför dessa stackar.

Apache Kafka Snabbstart – Installera Kafka 4.2 med CLI och lokala exempel

Apache Kafka 4.2.0 är den aktuella supportade utgåvelinjen, och den utgör den bästa basen för ett modernt snabbstartsguide eftersom Kafka 4.x är helt utan ZooKeeper och bygger på KRaft som standard.

Prenumerera