AI - Rost Glukhov | Personlig webbplats och teknisk blogg

LLM-arkitektur: Systemdesign för produktionsberedd AI

Design decisions for production LLM systems — routing, cost, guardrails, and multi-model orchestration. The layer between running models and building reliable AI applications.

Kostnadsminimering för LLM-system: Vart pengarna verkligen går

Kostnader för stora språkmodeller (LLM) ökar linjärt med användningen. Ett system som bearbetar 10 000 förfrågningar per dag till $0,01 per förfrågan kostar $100 dagligen – vilket innebär $365 per år. I enterprise-skala blir det mer än $10 000.

LLM-räls i praktiken: Vad som verkligen fungerar

LLM:er är oförutsägbara. De hallucinerar, läcker data, genererar skadligt innehåll eller vägrar legitima begäran. Skyddsnät begränsar modellens beteende utan att offra kapacitet.

Modellruttning: Sluta använda en modell för allt

Att köra en modell med 70 miljarder parametrar för att sammanfatta ett 200-ord långt e-postmeddelande är slöseri. Att köra en 3-miljarders modell för att granskas produktionskod är slarvigt. De flesta system hamnar någonstans emellan — och det är här modellruttning kommer in i bilden.

Systemdesign med flera modeller: När en modell inte räcker

Enkelmodellsystem är enkla. Multimodellsystem är kraftfulla. Utmaningen ligger inte i att välja modeller, utan i att designa arkitekturen som dirigerar dem.

Minne förvandlar assistenter från reaktiva till bestående, men det är också där många system tyst förfaller. Undersökningar hävdar att uppdelningen mellan kort- och långtidsminne inte längre räcker för modern agentminne; OpenAI och LangGraph SDK:er pekar på en enklare stack — arbetsminne, bestående tillstånd och hämtning.

Arkitektur för AI-assistent: LLM, minne, verktyg, routing, observabilitet

En produktionsklar AI-assistent är inte “en LLM med en prompt”. Det är ett system som tar emot avsikt, behåller tillstånd, beslutar när det ska hämta information eller utföra åtgärder, och exponerar tillräckligt med detaljer om körningen för att kunna felsöka fel.

AI för kunskaps hantering: verkliga arbetsflöden som håller

AI ersätter inte kunskapsstyrning; den förändrar dess form för både individer och team.

OpenClaw vs Hermes Agent: Stjärnor, nedladdningar och användning 2026

Open-source-ram för AI-agenter exploderar i popularitet på GitHub. Två projekt som ligger i kärnan av ekosystemet för självhushållande AI-system — OpenClaw och Hermes Agent — har dragit så långt ifrån att resten av fältet slåss om en fjärran tredjeplats.

Qwen 3.6 27B och 35B MTP jämfört med Standard på 16 GB GPU

Jag testade prestandan för spekulativ dekodning (Multi-Token Prediction, MTP) i Qwen 3.6 27B och 35B på en RTX 4080 med 16 GB VRAM.

Avladda alla llama.cpp-routermodeller utan att starta om

Routerläge för llama.cpp är en av de mest användbara förändringarna i llama-server på flera år. Det ger slutligen lokala aktörer av LLM (Large Language Models) något som liknar modellhanteringsupplevelsen som man förväntar sig från Ollama, samtidigt som det behåller den råa prestanda och den lågnivåkontroll som gör llama.cpp värd att använda i första hand.

LLM Wiki - Sammanställt kunskapsunderlag som RAG inte kan ersätta

Premissen är enkel: sammanställd kunskap är mer återanvändbar än hämtade fragment. RAG blev det självklara svaret på en enkel fråga – hur ger jag en LLM (storspråkmodell) tillgång till extern kunskap?

PKM kontra RAG kontra Wiki kontra minnessystem – en tydlig förklaring

PKM, RAG, wikis, AI-minnesystem och nu praktiska AI-assisterade arbetsflöden diskuteras ofta som om de löste samma problem. Det gör de inte. De hanterar alla kunskap, men de opererar på olika lager:

Validering av strukturerad output från LLM:er i Python som håller

De flesta tutorials om “strukturerad utdata” från stora språkmodeller (LLM) är oseriösa. De lägger upp det som att du ska be artigt om JSON och sedan hoppas att modellen beter sig. Det är inte validering. Det är optimisme med klammermärken.

Referens för agenta LLM-inferensparametrar för Qwen och Gemma

Denna sida är en praktisk referens för justering av agentic LLM-inferens (temperatur, top_p, top_k, strafftermer och hur de samverkar i flerstegs- och verktygstäta arbetsflöden).

Du chattar redan med Hermes Agent från din telefon med text. Nu vill du prata med den direkt och få muntliga svar tillbaka. Det är oftast rätt val, särskilt om du redan använder Hermes som en självhostad assistent. Att skriva långa prompter på en liten skärm är långsamt och benäget för fel

AI

LLM-arkitektur: Systemdesign för produktionsberedd AI

Kostnadsminimering för LLM-system: Vart pengarna verkligen går

LLM-räls i praktiken: Vad som verkligen fungerar

Modellruttning: Sluta använda en modell för allt

Systemdesign med flera modeller: När en modell inte räcker

Minnessystem i AI-assistenter

Arkitektur för AI-assistent: LLM, minne, verktyg, routing, observabilitet

AI för kunskaps hantering: verkliga arbetsflöden som håller

OpenClaw vs Hermes Agent: Stjärnor, nedladdningar och användning 2026

Qwen 3.6 27B och 35B MTP jämfört med Standard på 16 GB GPU

Avladda alla llama.cpp-routermodeller utan att starta om

LLM Wiki - Sammanställt kunskapsunderlag som RAG inte kan ersätta

PKM kontra RAG kontra Wiki kontra minnessystem – en tydlig förklaring

Validering av strukturerad output från LLM:er i Python som håller

Referens för agenta LLM-inferensparametrar för Qwen och Gemma

Hermes röststyrning från din telefon