Evergreen Notes: Skriv anteckningar som växer över tid

Evergreen Notes: Skriv anteckningar som växer över tid

Anteckningar som förbättras istället för att försämras.

De flesta tekniska anteckningar skrivs en gång och glöms sedan bort. Du fångar något under en felsökningsprocess, klistrar in det någonstans och hittar det två år senare utan någon kontext för varför det var viktigt.

Modellruttning: Sluta använda en modell för allt

Modellruttning: Sluta använda en modell för allt

Rätt modell för rätt uppgift.

Att köra en modell med 70 miljarder parametrar för att sammanfatta ett 200-ord långt e-postmeddelande är slöseri. Att köra en 3-miljarders modell för att granskas produktionskod är slarvigt. De flesta system hamnar någonstans emellan — och det är här modellruttning kommer in i bilden.

LLM-räls i praktiken: Vad som verkligen fungerar

LLM-räls i praktiken: Vad som verkligen fungerar

Kontrollera risken, inte bara modellen.

LLM:er är oförutsägbara. De hallucinerar, läcker data, genererar skadligt innehåll eller vägrar legitima begäran. Skyddsnät begränsar modellens beteende utan att offra kapacitet.

Kostnadsminimering för LLM-system: Vart pengarna verkligen går

Kostnadsminimering för LLM-system: Vart pengarna verkligen går

Använd token där de verkligen spelar roll.

Kostnader för stora språkmodeller (LLM) ökar linjärt med användningen. Ett system som bearbetar 10 000 förfrågningar per dag till $0,01 per förfrågan kostar $100 dagligen – vilket innebär $365 per år. I enterprise-skala blir det mer än $10 000.

Minnessystem i AI-assistenter

Minnessystem i AI-assistenter

Arbets-, strukturerat och hämtat minne för assistenter.

Minne förvandlar assistenter från reaktiva till bestående, men det är också där många system tyst förfaller. Undersökningar hävdar att uppdelningen mellan kort- och långtidsminne inte längre räcker för modern agentminne; OpenAI och LangGraph SDK:er pekar på en enklare stack — arbetsminne, bestående tillstånd och hämtning.

Arkitektur för AI-assistent: LLM, minne, verktyg, routing, observabilitet

Arkitektur för AI-assistent: LLM, minne, verktyg, routing, observabilitet

Så allvarliga assistenter faktiskt byggs.

En produktionsklar AI-assistent är inte “en LLM med en prompt”. Det är ett system som tar emot avsikt, behåller tillstånd, beslutar när det ska hämta information eller utföra åtgärder, och exponerar tillräckligt med detaljer om körningen för att kunna felsöka fel.

Avladda alla llama.cpp-routermodeller utan att starta om

Avladda alla llama.cpp-routermodeller utan att starta om

Frigör VRAM utan att stoppa llama-server.

Routerläge för llama.cpp är en av de mest användbara förändringarna i llama-server på flera år. Det ger slutligen lokala aktörer av LLM (Large Language Models) något som liknar modellhanteringsupplevelsen som man förväntar sig från Ollama, samtidigt som det behåller den råa prestanda och den lågnivåkontroll som gör llama.cpp värd att använda i första hand.

Retrival kontra representation i kunskapssystem

Retrival kontra representation i kunskapssystem

Sök är inte kunskapsstruktur

De flesta moderna kunskapssystem optimerar hämtning (retrieval), och det är förståeligt. Sök är synligt, lätt att demonstrera och känns magiskt när det fungerar. Skriv en fråga, få ett svar.

Prenumerera

Få nya inlägg om system, infrastruktur och AI-ingenjörskonst.