Rost Glukhov | Personlig webbplats och teknisk blogg

PARA-metoden för ingenjörer: Organisera kunskap efter åtgärd

Att organisera anteckningar efter ämne låter logiskt, tills du har anteckningar om PostgreSQL i fem olika mappar och inte kan hitta den som är relevant för dagens problem.

Evergreen Notes: Skriv anteckningar som växer över tid

De flesta tekniska anteckningar skrivs en gång och glöms sedan bort. Du fångar något under en felsökningsprocess, klistrar in det någonstans och hittar det två år senare utan någon kontext för varför det var viktigt.

Digitala trädgårdar: Växt kunskap istället för bara att publicera den

Den dominerande modellen för publicering av kunskap online har inte förändrats mycket sedan tidiga 2000-talet: skriv något, puts det, publicera det och gå vidare.

Systemdesign med flera modeller: När en modell inte räcker

Enkelmodellsystem är enkla. Multimodellsystem är kraftfulla. Utmaningen ligger inte i att välja modeller, utan i att designa arkitekturen som dirigerar dem.

Modellruttning: Sluta använda en modell för allt

Att köra en modell med 70 miljarder parametrar för att sammanfatta ett 200-ord långt e-postmeddelande är slöseri. Att köra en 3-miljarders modell för att granskas produktionskod är slarvigt. De flesta system hamnar någonstans emellan — och det är här modellruttning kommer in i bilden.

LLM-räls i praktiken: Vad som verkligen fungerar

LLM:er är oförutsägbara. De hallucinerar, läcker data, genererar skadligt innehåll eller vägrar legitima begäran. Skyddsnät begränsar modellens beteende utan att offra kapacitet.

Kostnadsminimering för LLM-system: Vart pengarna verkligen går

Kostnader för stora språkmodeller (LLM) ökar linjärt med användningen. Ett system som bearbetar 10 000 förfrågningar per dag till $0,01 per förfrågan kostar $100 dagligen – vilket innebär $365 per år. I enterprise-skala blir det mer än $10 000.

Minne förvandlar assistenter från reaktiva till bestående, men det är också där många system tyst förfaller. Undersökningar hävdar att uppdelningen mellan kort- och långtidsminne inte längre räcker för modern agentminne; OpenAI och LangGraph SDK:er pekar på en enklare stack — arbetsminne, bestående tillstånd och hämtning.

Arkitektur för AI-assistent: LLM, minne, verktyg, routing, observabilitet

En produktionsklar AI-assistent är inte “en LLM med en prompt”. Det är ett system som tar emot avsikt, behåller tillstånd, beslutar när det ska hämta information eller utföra åtgärder, och exponerar tillräckligt med detaljer om körningen för att kunna felsöka fel.

AI för kunskaps hantering: verkliga arbetsflöden som håller

AI ersätter inte kunskapsstyrning; den förändrar dess form för både individer och team.

Zettelkasten för utvecklare: en praktisk metod som fungerar

Utvecklare lider sällan av brist på information. Vi lider av för mycket av den.

OpenClaw vs Hermes Agent: Stjärnor, nedladdningar och användning 2026

Open-source-ram för AI-agenter exploderar i popularitet på GitHub. Två projekt som ligger i kärnan av ekosystemet för självhushållande AI-system — OpenClaw och Hermes Agent — har dragit så långt ifrån att resten av fältet slåss om en fjärran tredjeplats.

Qwen 3.6 27B och 35B MTP jämfört med Standard på 16 GB GPU

Jag testade prestandan för spekulativ dekodning (Multi-Token Prediction, MTP) i Qwen 3.6 27B och 35B på en RTX 4080 med 16 GB VRAM.

Avladda alla llama.cpp-routermodeller utan att starta om

Routerläge för llama.cpp är en av de mest användbara förändringarna i llama-server på flera år. Det ger slutligen lokala aktörer av LLM (Large Language Models) något som liknar modellhanteringsupplevelsen som man förväntar sig från Ollama, samtidigt som det behåller den råa prestanda och den lågnivåkontroll som gör llama.cpp värd att använda i första hand.

Retrival kontra representation i kunskapssystem

De flesta moderna kunskapssystem optimerar hämtning (retrieval), och det är förståeligt. Sök är synligt, lätt att demonstrera och känns magiskt när det fungerar. Skriv en fråga, få ett svar.

LLM Wiki - Sammanställt kunskapsunderlag som RAG inte kan ersätta

Premissen är enkel: sammanställd kunskap är mer återanvändbar än hämtade fragment. RAG blev det självklara svaret på en enkel fråga – hur ger jag en LLM (storspråkmodell) tillgång till extern kunskap?

Prenumerera