Ollama

Ollamas GPT-OSS-modeller har återkommande problem med hantering av strukturerad utdata, särskilt när de används med ramverk som LangChain, OpenAI SDK, vllm och andra.

Begränsa LLMs med strukturerad utdata: Ollama, Qwen3 & Python eller Go

Stora språkmodeller (LLMs) är kraftfulla, men i produktion vill vi sällan ha fritt formulerade stycken. Istället vill vi ha förutsägbart data: attribut, fakta eller strukturerade objekt som du kan mata in i en app. Det är LLM Strukturerad Utdata.

Minneallokering och modellschemaläggning i Ollamas nya version - v0.12.1

Här jämför jag hur mycket VRAM den nya versionen av Ollama tilldelar modellen (https://www.glukhov.org/sv/post/2025/09/memory-allocation-in-ollama-new-version/ “Ollama VRAM-allokering”) jämfört med tidigare version. Den nya versionen är sämre.

Ollama Enshittifiering - de tidiga tecknen

Ollama har snabbt blivit ett av de mest populära verktygen för att köra LLMs lokalt. Dess enkla CLI och strömlinjeformade modellhantering har gjort det till ett förstahandsval för utvecklare som vill arbeta med AI-modeller utanför molnet. Men som med många lovande plattformar finns det redan tecken på Enshittification:

Chattgränssnitt för lokala Ollama-instanser

Lokalt värdade Ollama gör det möjligt att köra stora språkmodeller på din egen dator, men att använda det via kommandoraden är inte användarvänligt. Här är flera öppna källkodsprojekt som erbjuder ChatGPT-stilgränssnitt som ansluter till ett lokalt Ollama.

Omrankning av dokument med Ollama och Qwen3 Reranker-modellen - i Go

Ett standard Ollama-verktyg har ingen direkt rerank-API, så du måste implementera reranking med Qwen3 Reranker i GO genom att generera inbäddningar för fråga-dokument-par och poängsätta dem.

Jämförelse av Hugo-sidöversättningskvalitet - LLMs på Ollama

I den här testen jämför jag hur olika LLMs som är värdade på Ollama översätter Hugo-sidor från engelska till tyska. Tre sidor som jag testade handlade om olika ämnen och hade trevlig markdown med struktur: rubriker, listor, tabeller, länkar etc.

Omrankning av texter med Ollama och Qwen3 Embedding LLM - i Go

Den här lilla Go-kodexemplet för omrankning använder Ollama för att generera inbäddningar för frågan och för varje kandidatdokument, sedan sorterar i fallande ordning efter cosinuslikhet.

Qwen3 Embedding & Reranker Modeller på Ollama: State-of-the-Art Prestanda

Modellerna för Qwen3 Embedding och Reranker (https://www.glukhov.org/sv/post/2025/06/qwen3-embedding-qwen3-reranker-on-ollama/ “Qwen3 Embedding och Reranker modeller på ollama”) är de senaste lanseringarna i Qwen-familjen, specifikt utformade för avancerade textembedding-, återvinning- och omrankningstjänster.

LLM-prestanda och PCIe-lanes: Väsentliga överväganden

Hur PCIe-lanes påverkar LLM-prestanda? Beroende på uppgiften. Vid träning och multi-gpu-inferens - prestandafallet är betydande.

Konvertera HTML-innehåll till Markdown med hjälp av LLM och Ollama

I biblioteket med Ollama-modeller finns det modeller som kan konvertera HTML-innehåll till Markdown, vilket är användbart för uppgifter som innehållskonvertering.

Listar här några AI-assisterade kodverktyg och AI-kodassistenter och deras bra sidor.

Test: Hur Ollama använder Intel CPU-prestanda och effektiva kärnor

Jag har en teori att jag vill testa - om användningen av alla kärnor på en Intel CPU skulle öka hastigheten på LLMs?

Det här plågar mig att den nya gemma3 27-bitarsmodellen (gemma3:27b, 17GB på ollama) inte passar in i min GPUs 16GB VRAM och delvis körs på CPU.

Hur Ollama Hanterar Parallella Förfrågningar

När Ollama-servern tar emot två förfrågningar samtidigt, beror dess beteende på dess konfiguration och tillgängliga systemresurser.

DeepSeek’s första generation av resonemangsmodeller med jämförbar prestanda med OpenAI-o1, inklusive sex täta modeller destillerade från DeepSeek-R1 baserade på Llama och Qwen.

Här är listan och exemplen på de mest användbara Ollama-kommandona (Ollama kommandon cheat sheet) Jag sammanställde den här listan för ett tag sedan, senast uppdaterad i januari 2026. Hoppas att den också kommer att vara nyttig för dig.

Ollama

Ollama GPT-OSS Problem med Strukturerad Utdata

Begränsa LLMs med strukturerad utdata: Ollama, Qwen3 & Python eller Go

Minneallokering och modellschemaläggning i Ollamas nya version - v0.12.1

Ollama Enshittifiering - de tidiga tecknen

Chattgränssnitt för lokala Ollama-instanser

Omrankning av dokument med Ollama och Qwen3 Reranker-modellen - i Go

Jämförelse av Hugo-sidöversättningskvalitet - LLMs på Ollama

Omrankning av texter med Ollama och Qwen3 Embedding LLM - i Go

Qwen3 Embedding & Reranker Modeller på Ollama: State-of-the-Art Prestanda

LLM-prestanda och PCIe-lanes: Väsentliga överväganden

Konvertera HTML-innehåll till Markdown med hjälp av LLM och Ollama

Jämförelse av AI-kodningsassistenter

Test: Hur Ollama använder Intel CPU-prestanda och effektiva kärnor

Hur Ollama Hanterar Parallella Förfrågningar

Testning av Deepseek-R1 på Ollama

Ollama CheatSheet - de mest användbara kommandona - uppdatering 2026