Ollama CheatSheet - de mest användbara kommandona - uppdatering 2026

Sammanställde denna lista över Ollama-kommandon för ett tag sedan...

Sidinnehåll

Här är listan och exemplen på de mest användbara Ollama-kommandona (Ollama kommandon cheat sheet) Jag sammanställde den här listan för ett tag sedan, senast uppdaterad i januari 2026. Hoppas att den också kommer att vara nyttig för dig.

ollama cheatsheet

Den här Ollama-cheatsheeten fokuserar på CLI-kommandon, modellhantering och anpassning, Men här har vi också några curl anrop också.

Om du jämför olika lösningar för lokal LLM-värd, se vår omfattande jämförelse av Ollama, vLLM, LocalAI, Jan, LM Studio och mer. För de som söker alternativ till kommandoradssnitt, Docker Model Runner erbjuder en annan metod för LLM-distribution.

Installation

  • Alternativ 1: Ladda ner från hemsidan
    • Besök ollama.com och ladda ner installationsprogrammet för din operativsystem (Mac, Linux eller Windows).
  • Alternativ 2: Installera via kommandorad
    • För Mac- och Linux-användare, använd kommandot:
curl https://ollama.ai/install.sh | sh
  • Följ skärmen på instruktionerna och ange ditt lösenord om det efterfrågas.

Systemkrav

För allvarliga AI-belastningar, kanske du vill jämföra hårdvarualternativ. Vi har benchmarkat NVIDIA DGX Spark vs Mac Studio vs RTX-4080 prestanda med Ollama, och om du överväger att investera i högprestandahårdvara, vår DGX Spark-pris- och förmåga jämförelse ger detaljerad kostnadsanalys.

Grundläggande Ollama CLI-kommandon

Kommando Beskrivning
ollama serve Startar Ollama på din lokala system.
ollama create <new_model> Skapar en ny modell från en befintlig för anpassning eller träning.
ollama show <model> Visar detaljer om en specifik modell, som dess konfiguration och frigivningsdatum.
ollama run <model> Kör den specificerade modellen, gör den redo för interaktion.
ollama pull <model> Laddar ner den specificerade modellen till ditt system.
ollama list Visar alla nedladdade modeller. Samma som ollama ls
ollama ps Visar de modeller som för närvarande kör.
ollama stop <model> Stoppa den specificerade körande modellen.
ollama rm <model> Tar bort den specificerade modellen från ditt system.
ollama help Ger hjälp om något kommando.

Modellhantering

  • Ladda ner en modell:

    ollama pull mistral-nemo:12b-instruct-2407-q6_K
    

    Detta kommando laddar ner den specificerade modellen (t.ex., Gemma 2B, eller mistral-nemo:12b-instruct-2407-q6_K) till ditt system. Modellfilerna kan vara väldigt stora, så håll ett öga på hur mycket utrymme modellerna använder på hårddisken, eller ssd. Du kan till och med vilja flytta alla Ollama-modeller från din hemkatalog till en annan större och bättre disk

  • Kör en modell:

    ollama run qwen2.5:32b-instruct-q3_K_S
    

    Detta kommando startar den specificerade modellen och öppnar en interaktiv REPL för interaktion. Vill du förstå hur Ollama hanterar flera samtidiga förfrågningar? Läs mer om hur Ollama hanterar parallella förfrågningar i vår detaljerade analys.

  • Lista modeller:

    ollama list
    

    samma som:

    ollama ls
    

    Detta kommando listar alla modeller som har laddats ner till ditt system, som

    $ ollama ls
    NAME                                                    ID              SIZE      MODIFIED     
    deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 veckor sedan     
    gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 veckor sedan     
    LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 veckor sedan     
    dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 veckor sedan     
    dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 veckor sedan     
    qwen3:8b                                                500a1f067a9f    5.2 GB    5 veckor sedan     
    qwen3:14b                                               bdbd181c33f2    9.3 GB    5 veckor sedan     
    qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 veckor sedan     
    devstral:24b                                            c4b2fa0c33d7    14 GB     5 veckor sedan  
    
  • Stoppa en modell:

    ollama stop llama3.1:8b-instruct-q8_0
    

    Detta kommando stoppar den specificerade körande modellen.

Släppa modell från VRAM

När en modell laddas in i VRAM (GPU-minne), förblir den där även efter att du har slutfört att använda den. För att explicit släppa en modell från VRAM och frigöra GPU-minne, kan du skicka en begäran till Ollama API med keep_alive: 0.

  • Släpp modell från VRAM med curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Byt ut MODELNAME mot din faktiska modellnamn, till exempel:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Släpp modell från VRAM med Python:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Detta är särskilt användbart när:

  • Du behöver frigöra GPU-minne för andra program
  • Du kör flera modeller och vill hantera VRAM-användning
  • Du har slutfört att använda en stor modell och vill släppa resurser omedelbart

Notera: Parametern keep_alive styr hur länge (i sekunder) en modell hålls laddad i minnet efter den sista begäran. Att sätta den till 0 släpper omedelbart modellen från VRAM.

Anpassa modeller

  • Ställ in systemprompt: Inuti Ollama REPL kan du ställa in en systemprompt för att anpassa modellens beteende:

    >>> /set system För alla frågor som ställs svara i ren engelska undvik teknisk jargon så mycket som möjligt
    >>> /save ipe
    >>> /bye
    

    Sedan, kör den anpassade modellen:

    ollama run ipe
    

    Detta ställer in en systemprompt och sparar modellen för framtida användning.

  • Skapa anpassad modellfil: Skapa en textfil (t.ex., custom_model.txt) med följande struktur:

    FROM llama3.1
    SYSTEM [Dina anpassade instruktioner här]
    

    Sedan, kör:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    Detta skapar en anpassad modell baserat på instruktionerna i filen".

Använda Ollama med filer

  • Sammanfatta text från en fil:

    ollama run llama3.2 "Sammanfatta innehållet i denna fil på 50 ord." < input.txt
    

    Detta kommando sammanfattar innehållet i input.txt med den specificerade modellen.

  • Logga modellens svar till en fil:

    ollama run llama3.2 "Berätta mig om förnyelsebar energi." > output.txt
    

    Detta kommando sparar modellens svar till output.txt.

Vanliga användningsfall

  • Textgenerering:

    • Sammanfatta en stor textfil:
      ollama run llama3.2 "Sammanfatta följande text:" < long-document.txt
      
    • Generera innehåll:
      ollama run llama3.2 "Skriv en kort artikel om fördelarna med att använda AI i hälsovård." > article.txt
      
    • Svara på specifika frågor:
      ollama run llama3.2 "Vad är de senaste trenderna inom AI, och hur kommer de att påverka hälsovård?"
      

    .

  • Datahantering och analys:

    • Klassificera text till positiv, negativ eller neutral känsla:
      ollama run llama3.2 "Analysera känslon i denna kundrecension: 'Produkten är fantastisk, men leveransen var långsam.'"
      
    • Kategorisera text till fördefinierade kategorier: Använd liknande kommandon för att klassificera eller kategorisera text baserat på fördefinierade kriterier.

Använda Ollama med Python

  • Installera Ollama Python-bibliotek:
    pip install ollama
    
  • Generera text med Python:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='vad är en qubit?')
    print(response['response'])
    
    Detta kodexempel genererar text med den specificerade modellen och prompten.

För avancerad Python-integrering, utforska använda Ollamas Web Search API i Python, som täcker webbsökning, verktygsanrop och MCP-serverintegration. Om du bygger AI-drivna appar, kan vår AI-kodningsassistent jämförelse hjälpa dig välja rätt verktyg för utveckling.

Söker du efter en webbaserad gränssnitt? Öppna WebUI ger ett självvärd gränssnitt med RAG-förmåga och stöd för flera användare. För högprestanda produktionsdistributioner, överväg vLLM som alternativ.

Några användbara länkar

Alternativ och jämförelser

Prestanda och hårdvara

Integration och utveckling

Konfiguration och hantering