LLM

Avancerad RAG: En förklaring av LongRAG, Self-RAG och GraphRAG

Retrieval-Augmented Generation (RAG) har utvecklats långt bortom enkel vektorbaserad likhetssökning. LongRAG, Self-RAG och GraphRAG representerar framkanten av dessa möjligheter.

FLUX.1-dev är en kraftfull text-till-bild-modell som producerar imponerande resultat, men dess minneskrav på 24GB+ gör den svår att köra på många system. GGUF-kvantisering av FLUX.1-dev erbjuder en lösning, reducerar minnesanvändningen med cirka 50% samtidigt som bildkvaliteten bibehålls.

Docker Model Runner: Guide för inställning av kontextstorlek

Konfigurera kontextstorlek i Docker Model Runner är mer komplex än det borde vara.

FLUX.1-Kontext-dev: Bildförstärknings AI-modell

Black Forest Labs har släppt FLUX.1-Kontext-dev, en avancerad bild-till-bild AI-modell som förstärker befintliga bilder med hjälp av textinstruktioner.

Lägg till stöd för NVIDIA GPU i Docker Model Runner

Docker Model Runner är Docks officiella verktyg för att köra AI-modeller lokalt, men aktivera NVidia GPU-acceleration i Docker Model Runner kräver specifik konfiguration.

Sänk kostnaderna för stora språkmodeller: Strategier för tokenoptimering

Tokenoptimering är den avgörande kompetensen som skiljer kostnadseffektiva LLM-applikationer från experiment som dränerar budgeten.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestandajämförelse

Jag hittade några intressanta prestandatest av GPT-OSS 120b som kör på Ollama över tre olika plattformar: NVIDIA DGX Spark, Mac Studio, och RTX 4080. GPT-OSS 120b-modellen från Ollama-biblioteket väger 65 GB, vilket innebär att den inte passar in i den 16 GB VRAM som finns på en RTX 4080 (eller den nyare RTX 5080).

Bygg MCP-servrar i Python: Guide för webbsökning och skrapning

Model Context Protocol (MCP) revolutionerar hur AI-assistenter interagerar med externa datorkällor och verktyg. I den här guiden kommer vi att utforska hur man bygger MCP servrar i Python, med exempel som fokuserar på webbsökning och skrapning.

Konvertera HTML till Markdown med Python: En omfattande guide

Konvertera HTML till Markdown är en grundläggande uppgift i moderna utvecklingsarbeteflöden, särskilt när du förbereder webbcontent för stora språkmodeller (LLM), dokumentationssystem eller statiska webbplatsgeneratorer som Hugo. Den här guiden är en del av vår Dokumentverktyg 2026: Markdown, LaTeX, PDF & Skrivningsflöden hub.

Docker Model Runner Cheatsheet: Kommandon & Exempel

Docker Model Runner (DMR) är Docks officiella lösning för att köra AI-modeller lokalt, introducerad i april 2025. Den här cheatsheten ger en snabb referens för alla viktiga kommandon, konfigurationer och bästa praxis.

Docker Model Runner vs Ollama (2026): Vilken är bäst för lokala LLMs?

Att köra stora språkmodeller (LLMs) lokalt har blivit alltmer populärt för skydd av integritet, kostnadsstyrning och möjlighet att använda modeller offline. Landskapet förändrades betydligt i april 2025 när Docker introducerade Docker Model Runner (DMR), sin officiella lösning för distribution av AI-modeller.

LLM-ASIC:ar och specialiserade inferenschips (varför de är viktiga)

Framtiden för AI handlar inte bara om smartare modeller. Det handlar också om kiselbaserad hårdvara som matchar hur dessa modeller faktiskt serveras. Specialiserad hårdvara för LLM-inferens följer en väg som påminner om Bitcoin-gruvdrifts övergång från GPU till specialbyggda ASIC, men med hårdare begränsningar eftersom modeller och precisionsschemat ständigt utvecklas.

DGX Spark jämfört med Mac Studio: En prisjämförelse av NVIDIAs personliga AI-superdator

NVIDIA DGX Spark är en realitet, till salu 15 oktober 2025, och riktar sig mot CUDA-utvecklare som behöver lokal LLM-arbete med en integrerad NVIDIA AI-stack. US MSRP $3 999; UK/DE/JP-pris är högre på grund av moms och kanal. AUD/KRW-priser är ännu inte allmänt postade.

Här är en jämförelse mellan Qwen3:30b och GPT-OSS:20b med fokus på instruktionföljande och prestandaparametrar, specifikationer och hastighet.

Integrera Ollama med Python: Exempel på REST API och Python-klient

I detta inlägg kommer vi att utforska två sätt att ansluta din Python-applikation till Ollama: 1. Via HTTP REST API; 2. Via den officiella Ollama Python-biblioteket.

Ollama GPT-OSS Strukturerade utgångsproblem

Ollama’s GPT-OSS modeller har återkommande problem med att hantera strukturerad utdata, särskilt när de används med ramverk som LangChain, OpenAI SDK, vllm och andra.

Avancerad RAG: En förklaring av LongRAG, Self-RAG och GraphRAG

Kör FLUX.1-dev GGUF Q8 i Python

Docker Model Runner: Guide för inställning av kontextstorlek

FLUX.1-Kontext-dev: Bildförstärknings AI-modell

Lägg till stöd för NVIDIA GPU i Docker Model Runner

Sänk kostnaderna för stora språkmodeller: Strategier för tokenoptimering

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestandajämförelse

Bygg MCP-servrar i Python: Guide för webbsökning och skrapning

Konvertera HTML till Markdown med Python: En omfattande guide

Docker Model Runner Cheatsheet: Kommandon & Exempel

Docker Model Runner vs Ollama (2026): Vilken är bäst för lokala LLMs?

LLM-ASIC:ar och specialiserade inferenschips (varför de är viktiga)

DGX Spark jämfört med Mac Studio: En prisjämförelse av NVIDIAs personliga AI-superdator

Jämförelse: Qwen3:30b vs GPT-OSS:20b

Integrera Ollama med Python: Exempel på REST API och Python-klient

Ollama GPT-OSS Strukturerade utgångsproblem