Ollama CheatSheet - de mest användbara kommandona - uppdatering 2026
Sammanställde denna lista över Ollama-kommandon för ett tag sedan...
Här är listan och exemplen på de mest användbara Ollama-kommandona (Ollama kommandon cheat sheet) Jag sammanställde den här listan för ett tag sedan, senast uppdaterad i januari 2026. Hoppas att den också kommer att vara nyttig för dig.

Den här Ollama-cheatsheeten fokuserar på CLI-kommandon, modellhantering och anpassning, Men här har vi också några curl anrop också.
Om du jämför olika lösningar för lokal LLM-värd, se vår omfattande jämförelse av Ollama, vLLM, LocalAI, Jan, LM Studio och mer. För de som söker alternativ till kommandoradssnitt, Docker Model Runner erbjuder en annan metod för LLM-distribution.
Installation
- Alternativ 1: Ladda ner från hemsidan
- Besök ollama.com och ladda ner installationsprogrammet för din operativsystem (Mac, Linux eller Windows).
- Alternativ 2: Installera via kommandorad
- För Mac- och Linux-användare, använd kommandot:
curl https://ollama.ai/install.sh | sh
- Följ skärmen på instruktionerna och ange ditt lösenord om det efterfrågas.
Systemkrav
- Operativsystem: Mac eller Linux (Windows-version i utveckling)
- Minne (RAM): Minst 8 GB, 16 GB eller mer rekommenderas
- Lagring: Minst ~10 GB ledigt utrymme (modellfilerna kan vara väldigt stora, se mer här Flytta Ollama-modeller till annan disk )
- Processor: En relativt modern CPU (från de sista fem åren). Om du är nyfiken på hur Ollama använder olika CPU-arkitekturer, se vår analys av hur Ollama använder Intel CPU-prestanda och effektiva kärnor.
För allvarliga AI-belastningar, kanske du vill jämföra hårdvarualternativ. Vi har benchmarkat NVIDIA DGX Spark vs Mac Studio vs RTX-4080 prestanda med Ollama, och om du överväger att investera i högprestandahårdvara, vår DGX Spark-pris- och förmåga jämförelse ger detaljerad kostnadsanalys.
Grundläggande Ollama CLI-kommandon
| Kommando | Beskrivning |
|---|---|
ollama serve |
Startar Ollama på din lokala system. |
ollama create <new_model> |
Skapar en ny modell från en befintlig för anpassning eller träning. |
ollama show <model> |
Visar detaljer om en specifik modell, som dess konfiguration och frigivningsdatum. |
ollama run <model> |
Kör den specificerade modellen, gör den redo för interaktion. |
ollama pull <model> |
Laddar ner den specificerade modellen till ditt system. |
ollama list |
Visar alla nedladdade modeller. Samma som ollama ls |
ollama ps |
Visar de modeller som för närvarande kör. |
ollama stop <model> |
Stoppa den specificerade körande modellen. |
ollama rm <model> |
Tar bort den specificerade modellen från ditt system. |
ollama help |
Ger hjälp om något kommando. |
Modellhantering
-
Ladda ner en modell:
ollama pull mistral-nemo:12b-instruct-2407-q6_KDetta kommando laddar ner den specificerade modellen (t.ex., Gemma 2B, eller mistral-nemo:12b-instruct-2407-q6_K) till ditt system. Modellfilerna kan vara väldigt stora, så håll ett öga på hur mycket utrymme modellerna använder på hårddisken, eller ssd. Du kan till och med vilja flytta alla Ollama-modeller från din hemkatalog till en annan större och bättre disk
-
Kör en modell:
ollama run qwen2.5:32b-instruct-q3_K_SDetta kommando startar den specificerade modellen och öppnar en interaktiv REPL för interaktion. Vill du förstå hur Ollama hanterar flera samtidiga förfrågningar? Läs mer om hur Ollama hanterar parallella förfrågningar i vår detaljerade analys.
-
Lista modeller:
ollama listsamma som:
ollama lsDetta kommando listar alla modeller som har laddats ner till ditt system, som
$ ollama ls NAME ID SIZE MODIFIED deepseek-r1:8b 6995872bfe4c 5.2 GB 2 veckor sedan gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 veckor sedan LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 veckor sedan dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 veckor sedan dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 veckor sedan qwen3:8b 500a1f067a9f 5.2 GB 5 veckor sedan qwen3:14b bdbd181c33f2 9.3 GB 5 veckor sedan qwen3:30b-a3b 0b28110b7a33 18 GB 5 veckor sedan devstral:24b c4b2fa0c33d7 14 GB 5 veckor sedan -
Stoppa en modell:
ollama stop llama3.1:8b-instruct-q8_0Detta kommando stoppar den specificerade körande modellen.
Släppa modell från VRAM
När en modell laddas in i VRAM (GPU-minne), förblir den där även efter att du har slutfört att använda den. För att explicit släppa en modell från VRAM och frigöra GPU-minne, kan du skicka en begäran till Ollama API med keep_alive: 0.
- Släpp modell från VRAM med curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Byt ut MODELNAME mot din faktiska modellnamn, till exempel:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Släpp modell från VRAM med Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Detta är särskilt användbart när:
- Du behöver frigöra GPU-minne för andra program
- Du kör flera modeller och vill hantera VRAM-användning
- Du har slutfört att använda en stor modell och vill släppa resurser omedelbart
Notera: Parametern keep_alive styr hur länge (i sekunder) en modell hålls laddad i minnet efter den sista begäran. Att sätta den till 0 släpper omedelbart modellen från VRAM.
Anpassa modeller
-
Ställ in systemprompt: Inuti Ollama REPL kan du ställa in en systemprompt för att anpassa modellens beteende:
>>> /set system För alla frågor som ställs svara i ren engelska undvik teknisk jargon så mycket som möjligt >>> /save ipe >>> /byeSedan, kör den anpassade modellen:
ollama run ipeDetta ställer in en systemprompt och sparar modellen för framtida användning.
-
Skapa anpassad modellfil: Skapa en textfil (t.ex.,
custom_model.txt) med följande struktur:FROM llama3.1 SYSTEM [Dina anpassade instruktioner här]Sedan, kör:
ollama create mymodel -f custom_model.txt ollama run mymodelDetta skapar en anpassad modell baserat på instruktionerna i filen".
Använda Ollama med filer
-
Sammanfatta text från en fil:
ollama run llama3.2 "Sammanfatta innehållet i denna fil på 50 ord." < input.txtDetta kommando sammanfattar innehållet i
input.txtmed den specificerade modellen. -
Logga modellens svar till en fil:
ollama run llama3.2 "Berätta mig om förnyelsebar energi." > output.txtDetta kommando sparar modellens svar till
output.txt.
Vanliga användningsfall
-
Textgenerering:
- Sammanfatta en stor textfil:
ollama run llama3.2 "Sammanfatta följande text:" < long-document.txt - Generera innehåll:
ollama run llama3.2 "Skriv en kort artikel om fördelarna med att använda AI i hälsovård." > article.txt - Svara på specifika frågor:
ollama run llama3.2 "Vad är de senaste trenderna inom AI, och hur kommer de att påverka hälsovård?"
.
- Sammanfatta en stor textfil:
-
Datahantering och analys:
- Klassificera text till positiv, negativ eller neutral känsla:
ollama run llama3.2 "Analysera känslon i denna kundrecension: 'Produkten är fantastisk, men leveransen var långsam.'" - Kategorisera text till fördefinierade kategorier: Använd liknande kommandon för att klassificera eller kategorisera text baserat på fördefinierade kriterier.
- Klassificera text till positiv, negativ eller neutral känsla:
Använda Ollama med Python
- Installera Ollama Python-bibliotek:
pip install ollama - Generera text med Python:
Detta kodexempel genererar text med den specificerade modellen och prompten.
import ollama response = ollama.generate(model='gemma:2b', prompt='vad är en qubit?') print(response['response'])
För avancerad Python-integrering, utforska använda Ollamas Web Search API i Python, som täcker webbsökning, verktygsanrop och MCP-serverintegration. Om du bygger AI-drivna appar, kan vår AI-kodningsassistent jämförelse hjälpa dig välja rätt verktyg för utveckling.
Söker du efter en webbaserad gränssnitt? Öppna WebUI ger ett självvärd gränssnitt med RAG-förmåga och stöd för flera användare. För högprestanda produktionsdistributioner, överväg vLLM som alternativ.
Några användbara länkar
Alternativ och jämförelser
- Lokal LLM-värd: Komplett 2026-guide - Ollama, vLLM, LocalAI, Jan, LM Studio & Mer
- vLLM snabbstart: Högprestanda LLM-server
- Docker Model Runner vs Ollama: Vilken ska du välja?
- Första tecknen på Ollama Enshittification
Prestanda och hårdvara
- Hur Ollama hanterar parallella förfrågningar
- Hur Ollama använder Intel CPU-prestanda och effektiva kärnor
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestandajämförelse
- DGX Spark vs. Mac Studio: En praktisk, prischeckad titt på NVIDIA:s personliga AI-superdator
Integration och utveckling
- Använda Ollama Web Search API i Python
- AI-kodningsassistent jämförelse
- Open WebUI: självvärd LLM-gränssnitt
- Öppen källkod Chat UI för LLM på lokala Ollama-instanser
- Begränsa LLM med strukturerad utdata: Ollama, Qwen3 & Python eller Go
- Integrera Ollama med Python: REST API och Python-klientexempel
- Go SDK för Ollama - jämförelse med exempel