Ollama Cheatheet - nuttigste opdrachten - update 2026
Deze lijst met Ollama-commands heb ik enige tijd geleden samengesteld...
Hier is de lijst en voorbeelden van de meest nuttige Ollama-commands (Ollama commands cheatsheet) Ik componeerde deze lijst enkele tijd geleden, laatst bijgewerkt in januari 2026. Hopelijk is het ook nuttiig voor jou.

Deze Ollama cheatsheet richt zich op CLI-commands, modelbeheer en aanpassingen, Maar we hebben hier ook enkele curl oproepen.
Als je verschillende lokale LLM-hostingoplossingen vergelijkt, bekijk dan onze comprehensive vergelijking van Ollama, vLLM, LocalAI, Jan, LM Studio en meer. Voor diegenen die alternatieven voor command-line interfaces zoeken, biedt Docker Model Runner een andere aanpak voor LLM-implementatie.
Installatie
- Optie 1: Download vanaf de website
- Bezoek ollama.com en download de installer voor je besturingssysteem (Mac, Linux of Windows).
- Optie 2: Installeer via de command line
- Voor Mac- en Linux-gebruikers, gebruik de opdracht:
curl https://ollama.ai/install.sh | sh
- Volg de op het scherm verschenen instructies en voer je wachtwoord in als dat wordt gevraagd.
Systeemvereisten
- Besturingssysteem: Mac of Linux (Windows-versie in ontwikkeling)
- Geheugen (RAM): Minimaal 8 GB, 16 GB of meer wordt aangeraden
- Opslag: Minstens ~10 GB vrije ruimte (modelbestanden kunnen echt groot zijn, zie hier meer Verplaats Ollama-modellen naar een ander station )
- Processor: Een relatief moderne CPU (van de afgelopen 5 jaar). Als je benieuwd bent hoe Ollama verschillende CPU-architecturen gebruikt, zie onze analyse van hoe Ollama Intel CPU-prestaties en efficiënte kernen gebruikt.
Voor serieuze AI-werkbelastingen, wil je mogelijk hardwareopties vergelijken. We hebben getest NVIDIA DGX Spark vs Mac Studio vs RTX-4080 prestaties met Ollama, en als je overweegt in te investeren in high-end hardware, biedt onze DGX Spark-prijzen en capaciteitenvergelijking gedetailleerde kostanalyse.
Basis Ollama CLI-commands
| Opdracht | Beschrijving |
|---|---|
ollama serve |
Start Ollama op je lokale systeem. |
ollama create <nieuw_model> |
Maakt een nieuw model vanuit een bestaand voor aanpassing of training. |
ollama show <model> |
Toont details over een specifiek model, zoals configuratie en release datum. |
ollama run <model> |
Start het opgegeven model, waardoor het klaar is voor interactie. |
ollama pull <model> |
Download het opgegeven model naar je systeem. |
ollama list |
Lijst alle gedownloade modellen. Hetzelfde als ollama ls |
ollama ps |
Toont de momenteel actieve modellen. |
ollama stop <model> |
Stopt het opgegeven actieve model. |
ollama rm <model> |
Verwijdert het opgegeven model van je systeem. |
ollama help |
Geeft hulp over elke opdracht. |
Modelbeheer
-
Een model downloaden:
ollama pull mistral-nemo:12b-instruct-2407-q6_KDeze opdracht downloadt het opgegeven model (bijvoorbeeld Gemma 2B, of mistral-nemo:12b-instruct-2407-q6_K) naar je systeem. De modelbestanden kunnen vrij groot zijn, dus houd de gebruikte ruimte door modellen op de harde schijf of ssd in de gaten. Je zou zelfs kunnen overwegen alle Ollama-modellen van je home directory naar een grotere en betere schijf te verplaatsen
-
Een model uitvoeren:
ollama run qwen2.5:32b-instruct-q3_K_SDeze opdracht start het opgegeven model en opent een interactieve REPL voor interactie. Wil je weten hoe Ollama meerdere gelijktijdige aanvragen beheert? Lees meer over hoe Ollama parallele aanvragen beheert in onze gedetailleerde analyse.
-
Modellen lijsten:
ollama listhetzelfde als:
ollama lsDeze opdracht lijst alle modellen die zijn gedownload op je systeem, zoals
$ ollama ls NAAM ID GROOTTE AANGEMERKT deepseek-r1:8b 6995872bfe4c 5,2 GB 2 weken geleden gemma3:12b-it-qat 5d4fa005e7bb 8,9 GB 2 weken geleden LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 weken geleden dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4,7 GB 4 weken geleden dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2,9 GB 4 weken geleden qwen3:8b 500a1f067a9f 5,2 GB 5 weken geleden qwen3:14b bdbd181c33f2 9,3 GB 5 weken geleden qwen3:30b-a3b 0b28110b7a33 18 GB 5 weken geleden devstral:24b c4b2fa0c33d7 14 GB 5 weken geleden -
Een model stoppen:
ollama stop llama3.1:8b-instruct-q8_0Deze opdracht stopt het opgegeven actieve model.
Model vrijgeven van VRAM
Wanneer een model is geladen in VRAM (GPU-geheugen), blijft het daar zitten zelfs na het gebruik. Om expliciet een model vrij te geven van VRAM en GPU-geheugen vrij te maken, kun je een aanvraag sturen naar de Ollama API met keep_alive: 0.
- Model vrijgeven van VRAM met curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Vervang MODELNAME met je werkelijke modelnaam, bijvoorbeeld:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Model vrijgeven van VRAM met Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Dit is vooral handig wanneer:
- Je GPU-geheugen vrij moet maken voor andere toepassingen
- Je meerdere modellen draait en wil VRAM-gebruik beheren
- Je een groot model hebt gebruikt en direct resources wil vrijgeven
Opmerking: De keep_alive parameter bepaalt hoe lang (in seconden) een model in het geheugen blijft geladen na de laatste aanvraag. Het instellen op 0 ontkoppelt het model direct van VRAM.
Modellen aanpassen
-
Stel systeemprompt in: Binnen de Ollama REPL kun je een systeemprompt instellen om het gedrag van het model aan te passen:
>>> /set system Voor alle vragen die worden gesteld, antwoord in gewoon Engels en vermijd technische termen zoveel mogelijk >>> /save ipe >>> /byeVervolgens, voer het aangepaste model uit:
ollama run ipeDit stelt een systeemprompt in en slaat het model op voor toekomstig gebruik.
-
Maak een aangepast modelbestand: Maak een tekstbestand (bijvoorbeeld
custom_model.txt) met de volgende structuur:VAN llama3.1 SYSTEEM [Je aangepaste instructies hier]Vervolgens, voer uit:
ollama create mymodel -f custom_model.txt ollama run mymodelDit maakt een aangepast model op basis van de instructies in het bestand".
Ollama gebruiken met bestanden
-
Samenvatting van tekst uit een bestand:
ollama run llama3.2 "Samenvat de inhoud van dit bestand in 50 woorden." < input.txtDeze opdracht samengevat de inhoud van
input.txtmet behulp van het opgegeven model. -
Log modelantwoorden naar een bestand:
ollama run llama3.2 "Vertel me over hernieuwbare energie." > output.txtDeze opdracht slaat het modelantwoord op
output.txt.
Algemene gebruikscases
-
Tekstgeneratie:
- Samenvatten van een groot tekstbestand:
ollama run llama3.2 "Samenvat de volgende tekst:" < long-document.txt - Tekst genereren:
ollama run llama3.2 "Schrijf een korte artikel over de voordelen van het gebruik van AI in de gezondheidszorg." > artikel.txt - Beantwoorden van specifieke vragen:
ollama run llama3.2 "Wat zijn de nieuwste trends in AI en hoe zullen ze de gezondheidszorg beïnvloeden?"
.
- Samenvatten van een groot tekstbestand:
-
Data-verwerking en -analyse:
- Classificeren van tekst in positief, negatief of neutraal sentiment:
ollama run llama3.2 "Analyseer het sentiment van deze klantrecensie: 'Het product is geweldig, maar levering was traag.'" - Categorieën van tekst in vooraf gedefinieerde categorieën: Gebruik vergelijkbare opdrachten om tekst te classificeren of categoriseren op basis van vooraf gedefinieerde criteria.
- Classificeren van tekst in positief, negatief of neutraal sentiment:
Ollama gebruiken met Python
- Installeer Ollama Python-bibliotheek:
pip install ollama - Genereer tekst met behulp van Python:
Dit codefragment genereert tekst met behulp van het opgegeven model en prompt.
import ollama response = ollama.generate(model='gemma:2b', prompt='wat is een qubit?') print(response['response'])
Voor geavanceerde Python-integratie, verkennen het gebruik van Ollama’s Web Search API in Python, wat webzoekfunctionaliteiten, tool calling en MCP-serverintegratie behandelt. Als je AI-gemotoriseerde toepassingen bouwt, kan onze AI-coderingsassistentenvergelijking je helpen het juiste hulpmiddel te kiezen voor ontwikkeling.
Zoek je naar een webgebaseerde interface? Open WebUI biedt een zelfgehoste interface met RAG-functionaliteit en multi-gebruikersondersteuning. Voor hoge prestaties in productie-implementaties, overweeg vLLM als alternatief.
Nuttige links
Alternatieven en vergelijkingen
- Lokaal LLM-hosting: Compleet 2026 gids - Ollama, vLLM, LocalAI, Jan, LM Studio & Meer
- vLLM Quickstart: Hoogprestatie LLM-servering
- Docker Model Runner vs Ollama: Wat kiezen?
- Eerste tekenen van Ollama Enshittification
Prestaties en hardware
- Hoe Ollama parallele aanvragen beheert
- Hoe Ollama Intel CPU-prestaties en efficiënte kernen gebruikt
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestatiesvergelijking
- DGX Spark vs. Mac Studio: Een praktische, prijsgecontroleerde kijk op NVIDIA’s persoonlijke AI-supercomputer
Integratie en ontwikkeling
- Gebruik van Ollama Web Search API in Python
- AI-coderingsassistentenvergelijking
- Open WebUI: Zelfgehoste LLM-interface
- Open-source chat UIs voor LLMs op lokale Ollama-instanties
- Beperken van LLMs met gestructureerde uitvoer: Ollama, Qwen3 & Python of Go
- Integreren van Ollama met Python: REST API en Python-clientvoorbeelden
- Go SDKs voor Ollama - vergelijking met voorbeelden