AI - Page 3 - Rost Glukhov | Personlig webbplats och teknisk blogg

Installation och konfiguration av Claude Code för Ollama, llama.cpp samt prissättning

Claude Code är inte bara autocomplete med bättre marknadsföring. Det är ett agentic-kodverktyg: det läser din kodbas, redigerar filer, kör kommandon och integreras med dina utvecklingsverktyg.

Hermes AI-assistent – installation, konfiguration, arbetsflöden och felsökning

Hermes Agent är en självhostad, modellagnostisk AI-assistent som körs på en lokal maskin eller en lågkostnadsvirtuell server (VPS), fungerar via terminal- och meddelandegränssnitt och förbättras över tid genom att omvandla upprepade uppgifter till återanvändbara färdigheter.

TGI – Text Generation Inference – Installation, konfiguration och felsökning

Text Generation Inference (TGI) har en mycket specifik energi. Det är inte den nyaste killen på inferensgatan, men det är den som redan har lärt sig hur produktion bryts –

LLM-benckmark med 16 GB VRAM med llama.cpp (hastighet och kontext)

Här jämför jag hastigheten hos flera LLM:s (storspråkmodeller) som körs på GPU med 16 GB VRAM, och väljer den bästa för egen hosting.

Ollama i Docker Compose med GPU och bestående modelllagring

Ollama fungerar utmärkt på “bare metal”. Det blir ännu mer intressant när du behandlar det som en tjänst: en stabil slutpunkt, fastlagda versioner, beständig lagring och en GPU som antingen är tillgänglig eller inte.

Ollama bakom en omvänd proxy med Caddy eller Nginx för HTTPS-strömning

Att köra Ollama bakom en omvänd proxy är det enklaste sättet att få HTTPS, valfri åtkontroll och förutsägbart strömmande beteende.

SGLang-Start: Installera, konfigurera och servera LLM via OpenAI API

SGLang är ett högpresterande ramverk för servering av stora språkmodeller och multimodala modeller, byggt för att leverera inferens med låg latens och hög genomströmning över allt från en enda GPU till distribuerade kluster.

Llama.swap Modellväxlar – Snabbstart för lokala, OpenAI-kompatibla LLM:ar

Snart kastar du mellan vLLM, llama.cpp och mer – varje stack på sin egen port. Allt nedströms vill fortfarande ha en enda bas-URL /v1; annars fortsätter du att shuffla med portar, profiler och skript för enskilda fall. llama-swap är /v1-proxyn som ligger framför dessa stackar.

AI-system: Självhostade assistenter, RAG och lokal infrastruktur

De flesta lokala AI-uppbyggnader börjar med en modell och en körningstid (runtime).

Oh My Opencode-granskning: Ärliga resultat, faktureringsrisker och när det är värt det

Oh My Opencode lovar om ett “virtuellt AI-utvecklingsteam” — där Sisyphus dirigerar specialister, uppgifter körs parallellt och magiska nyckelordet ultrawork aktiverar allt.

Oh My Opencode Snabbstart för OpenCode: Installera, Konfigurera och Kör

Oh My Opencode gör OpenCode till en multi-agent kodningsplattform: en orkestrator delegerar arbete till specialiserade agenter som kör parallellt.

Bästa LLM:er för OpenCode – Från Gemma 4 till Qwen 3.6, testat lokalt

Jag har testat hur OpenCode fungerar med flera lokalt körda LLM:er på Ollama och llama.cpp, och för jämförelsens skull har jag även lagt till några kostnadsfria modeller från OpenCode Zen.

En djupdykning och modellguide för Oh My Opencode:s specialiserade agenter

Det största kapacitetsspranget i OpenCode kommer från specialiserade agenter: en medveten separering av orkestrering, planering, exekvering och forskning.

OpenHands Coding Assistant – Snabbstart: Installation, CLI-flaggor och exempel

OpenHands är en öppen källkodsplattform som är modellagnostisk för AI-drivna agenter för mjukvaruutveckling. Den låter en agent bete sig mer som en kodpartner än ett enkelt verktyg för automatisk komplettering.

LocalAI QuickStart: Kör OpenAI-kompatibla LLMs lokalt

LocalAI är en självhostad, lokal-först inferensserver designad för att bete sig som en drop-in OpenAI API för att köra AI-arbetsbelastningar på din egen hårdvara (bärbar dator, arbetsstation eller on-prem-server).

Snabbstart för llama.cpp med CLI och server

Jag återkommer gång på gång till llama.cpp för lokal inferens – det ger dig kontroll som Ollama och andra abstraherar bort, och det fungerar bara enkelt. Det är lätt att köra GGUF-modeller interaktivt med llama-cli eller exponera ett OpenAI-kompatibelt HTTP-API med llama-server.