Ollama CLI Cheat Sheet: ls, serve, run, ps + commanden (2026 update)
Bijgewerkte lijst met Ollama-opdrachten - ls, ps, run, serve, enz.
Deze Ollama CLI cheat sheet richt zich op de opdrachten die je elke dag gebruikt (ollama ls, ollama serve, ollama run, ollama ps, modelbeheer en veelvoorkomende workflows), met voorbeelden die je kunt kopiëren/pasten.
Het bevat ook een korte sectie over “prestatieknoppen” om je te helpen ontdekken (en dan dieper in te duiken) OLLAMA_NUM_PARALLEL en gerelateerde instellingen.

Deze Ollama cheat sheet richt zich op CLI-opdrachten, modelbeheer en aanpassingen, Maar we hebben hier ook enkele curl oproepen.
Voor een volledig beeld van waar Ollama zich bevindt onder lokale, zelfgehoste en cloudopties—met inbegrip van vLLM, Docker Model Runner, LocalAI en cloudproviders—zie LLM Hosting: Lokale, zelfgehoste & Cloudinfrastructuur vergeleken. Als je verschillende lokale LLM-hostingoplossingen vergelijkt, bekijk dan onze uitgebreide vergelijking van Ollama, vLLM, LocalAI, Jan, LM Studio en meer. Voor wie alternatieven zoekt voor command-lineinterfaces, biedt Docker Model Runner een andere aanpak voor LLM-implementatie.
Ollama installatie (download en CLI-installatie)
- Optie 1: Download vanaf de website
- Bezoek ollama.com en download de installatie voor je besturingssysteem (Mac, Linux of Windows).
- Optie 2: Installeer via de command line
- Voor gebruikers van Mac en Linux, gebruik de opdracht:
curl -fsSL https://ollama.com/install.sh | sh
- Volg de opscherm-instructies en geef je wachtwoord op als dat wordt gevraagd.
Ollama systeemvereisten (RAM, opslag, CPU)
- Besturingssysteem: Mac, Linux of Windows
- Geheugen (RAM): Minimaal 8 GB, aanbevolen 16 GB of meer
- Opslag: Minstens ~10 GB vrije ruimte (modelbestanden kunnen erg groot zijn, zie hier meer Verplaats Ollama-modellen naar een ander station )
- Processor: Een relatief moderne CPU (van de afgelopen 5 jaar). Als je benieuwd bent hoe Ollama verschillende CPU-architecturen gebruikt, zie dan onze analyse van hoe Ollama Intel CPU-prestaties en efficiënte kernen gebruikt.
Voor serieuze AI-werkbelastingen, wil je mogelijk hardwareopties vergelijken. We hebben getest NVIDIA DGX Spark vs Mac Studio vs RTX-4080 prestaties met Ollama, en als je overweegt te investeren in high-end hardware, biedt onze DGX Spark-prijzen en capaciteitenvergelijking gedetailleerde kostanalyse.
Basis Ollama CLI-opdrachten
| Opdracht | Beschrijving |
|---|---|
ollama serve |
Start de Ollama-server (standaardpoort 11434). |
ollama run <model> |
Voer het opgegeven model uit in een interactieve REPL. |
ollama pull <model> |
Download het opgegeven model naar je systeem. |
ollama push <model> |
Upload een model naar de Ollama-registry. |
ollama list |
Lijst alle gedownloade modellen. Hetzelfde als ollama ls. |
ollama ps |
Toont momenteel actieve (geladen) modellen. |
ollama stop <model> |
Stopt (ontlaadt) een actief model. |
ollama rm <model> |
Verwijdert een model van je systeem. |
ollama cp <source> <dest> |
Kopieert een model onder een nieuw naam lokaal. |
ollama show <model> |
Toont details over een model (architectuur, parameters, sjabloon, enz.). |
ollama create <model> |
Maakt een nieuw model aan vanuit een Modelfile. |
ollama launch [integratie] |
Nulconfiguratie-lancering van AI-coderingsassistenten (Claude Code, Codex, Droid, OpenCode). |
ollama signin |
Verifieert met de Ollama-registry (inschakelt private modellen en cloudmodellen). |
ollama signout |
Meldt je af van de Ollama-registry. |
ollama help |
Geeft hulp over elke opdracht. |
Spring links: Ollama serve opdracht · Ollama launch opdracht · Ollama run opdracht · Ollama run flags · Ollama ps opdracht · Ollama show opdracht · Ollama signin · Ollama CLI basis · Prestatieknoppen (OLLAMA_NUM_PARALLEL) · Parallelle aanvragen diep doornemen
Ollama CLI (wat het is)
Ollama CLI is de command-line interface om modellen te beheren en ze lokaal te draaien/te serveren. De meeste workflows worden teruggebracht tot:
- Start de server:
ollama serve - Een model draaien:
ollama run <model> - Zie wat is geladen/gelopen:
ollama ps - Modellen beheren:
ollama pull,ollama list,ollama rm
Ollama modelbeheer: pull en list modelopdrachten
Modellen lijsten:
ollama list
hetzelfde als:
ollama ls
Deze opdracht lijst alle modellen die zijn gedownload naar je systeem, met hun bestandsgrootte op je hdd/sdd, zoals
$ ollama ls
NAAM ID GROOTTE MODIFIEERD
deepseek-r1:8b 6995872bfe4c 5,2 GB 2 weken geleden
gemma3:12b-it-qat 5d4fa005e7bb 8,9 GB 2 weken geleden
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 weken geleden
dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4,7 GB 4 weken geleden
dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2,9 GB 4 weken geleden
qwen3:8b 500a1f067a9f 5,2 GB 5 weken geleden
qwen3:14b bdbd181c33f2 9,3 GB 5 weken geleden
qwen3:30b-a3b 0b28110b7a33 18 GB 5 weken geleden
devstral:24b c4b2fa0c33d7 14 GB 5 weken geleden
Een model downloaden: ollama pull
ollama pull mistral-nemo:12b-instruct-2407-q6_K
Deze opdracht download het opgegeven model (bijvoorbeeld Gemma 2B, of mistral-nemo:12b-instruct-2407-q6_K) naar je systeem. De modelbestanden kunnen vrij groot zijn, dus houd de ruimte in de gaten die modellen gebruiken op de harde schijf of ssd. Je zou zelfs kunnen willen alle Ollama-modellen van je thuisdirectory verplaatsen naar een andere grotere en betere schijf
Een model uploaden: ollama push
ollama push my-custom-model
Uploadt een lokaal model naar de Ollama-registry zodat anderen het kunnen downloaden.
Je moet eerst ingelogd zijn (ollama signin) en de modelnaam moet voorafgaan met je Ollama-gebruikersnaam, bijvoorbeeld myuser/my-model.
Gebruik --insecure als je een model uploadt naar een privé-registry over HTTP:
ollama push myuser/my-model --insecure
Een model kopiëren: ollama cp
ollama cp llama3.2 my-llama3-variant
Maakt een lokale kopie van een model onder een nieuwe naam zonder iets opnieuw te downloaden. Dit is handig voordat je een Modelfile bewerkt — kopieer eerst, pas de kopie aan en houd het origineel intact:
ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile
Ollama show opdracht
ollama show print informatie over een gedownloade model.
ollama show qwen3:14b
Standaard print het de modelkaart (architectuur, contextlengte, embeddinglengte, kwantificatie, enz.). Er zijn drie nuttige vlaggen:
| Vlag | Wat het toont |
|---|---|
--modelfile |
Het volledige Modelfile dat gebruikt is om het model aan te maken (FROM, SYSTEM, TEMPLATE, PARAMETER regels) |
--parameters |
Alleen de parameterblok (bijvoorbeeld num_ctx, temperature, stop tokens) |
--verbose |
Uitgebreide metagegevens inclusief tensorvormen en laagcounts |
# Zie precies welk systeemprompt en sjabloon een model is gebouwd met
ollama show deepseek-r1:8b --modelfile
# Controleer de contextvenster grootte en andere inferentieparameters
ollama show qwen3:14b --parameters
# Volledige tensor-niveau detail (handig bij debuggen van kwantificatie)
ollama show llama3.2 --verbose
De uitvoer van --modelfile is vooral nuttig voordat je een model aanpast: je kunt de basis Modelfile kopiëren en van daaruit bewerken in plaats van er een vanaf nul te schrijven.
Ollama serve opdracht
ollama serve start de lokale Ollama-server (standaard HTTP-poort 11434).
ollama serve
“ollama serve” opdracht (systemd-vriendelijk voorbeeld):
# stel omgevingsvariabelen in, dan start de server
# maak ollama beschikbaar op het hosts IP-adres
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve
Ollama run opdracht
Een model draaien:
ollama run gpt-oss:20b
Deze opdracht start het opgegeven model en opent een interactieve REPL voor interactie. Wil je weten hoe Ollama meerdere gelijktijdige aanvragen beheert? Lees meer over hoe Ollama parallelle aanvragen afhandelt in onze gedetailleerde analyse.
ollama run draait een model in een interactieve sessie,
dus in het geval van gpt-oss:120b zou je iets zien als
$ ollama run gpt-oss:120b
>>> Stuur een bericht (/? voor hulp)
je kunt je vragen of opdrachten typen en het model zal antwoorden.
>>> wie ben jij?
Denkend...
De gebruiker vraagt "wie ben jij?" Eenvoudige vraag. Moet als ChatGPT antwoorden, een AI-taalmodel, getraind door OpenAI,
enz. Geef korte introductie. Waarschijnlijk vragen of ze hulp nodig hebben.
...gedacht.
Ik ben ChatGPT, een AI-taalmodel gemaakt door OpenAI. Ik ben getraind op een breed bereik van tekst zodat ik kan helpen
antwoorden op vragen, brainstormen met ideeën, uitleggen van concepten, schrijven van teksten, probleemoplossing en veel meer. Denk
van mij als een veelzijdig virtueel assistent—hier om informatie, ondersteuning en conversatie te bieden wanneer je dat nodig hebt. Hoe kan ik je vandaag helpen?
>>> Stuur een bericht (/? voor hulp)
Om de interactieve ollama sessie te verlaten, druk op Ctrl+D, of je kunt /bye typen, hetzelfde resultaat:
>>> /bye
$
Voorbeelden van Ollama run opdrachten
Om een model te draaien en een enkele vraag te stellen in een niet-interactive modus:
printf "Geef me 10 bash one-liners voor loganalyse.\n" | ollama run llama3.2
Als je gedetailleerde uitgebreide LLM-antwoord in de ollama sessie wilt zien - draai het model met --verbose of -v parameter:
$ ollama run gpt-oss:20b --verbose
>>> wie ben jij?
Denkend...
We moeten reageren op een eenvoudige vraag: "wie ben jij?" De gebruiker vraagt "wie ben jij?" We kunnen antwoorden dat we
zijn ChatGPT, een groot taalmodel getraind door OpenAI. We kunnen ook de mogelijkheden noemen. De gebruiker verwacht waarschijnlijk
een korte introductie. We houden het vriendelijk.
...gedacht.
Ik ben ChatGPT, een groot taalmodel gemaakt door OpenAI. Ik ben hier om vragen te beantwoorden, uitleg te geven,
ideeën te brainstormen en over een breed bereik van onderwerpen te praten—alles van wetenschap en geschiedenis tot creatief schrijven
en dagelijks advies. Laat me weten wat je graag wilt bespreken!
totaal duur: 1,118585707s
laadduur: 106,690543ms
prompt eval tel: 71 token(s)
prompt eval duur: 30,507392ms
prompt eval snelheid: 2327,30 tokens/s
eval tel: 132 token(s)
eval duur: 945,801569ms
eval snelheid: 139,56 tokens/s
>>> /bye
$
Ja, dat is juist, het is 139 tokens per seconde. De gpt-oss:20b is erg snel. Als jij, net zoals ik, een GPU met 16 GB VRAM hebt - zie de LLMs snelheid vergelijking details in Beste LLMs voor Ollama op 16 GB VRAM GPU.
Tip: Als je het model beschikbaar wilt maken via HTTP voor meerdere apps, start dan de server met ollama serve en gebruik de API-client in plaats van lange interactieve sessies.
Ollama run vlaggen (volledige referentie)
| Vlag | Beschrijving |
|---|---|
--verbose / -v |
Print timing statistieken (tokens/s, laadtijd, enz.) na elk antwoord |
-p, --parameters |
Geef modelparameters inline zonder Modelfile (zie hieronder) |
--format string |
Forceer een specifieke uitvoerformaat, bijvoorbeeld json |
--nowordwrap |
Geen automatische woordverwijding — handig wanneer uitvoer wordt gepiped naar scripts |
--insecure |
Toestaan van verbinding met een registry via HTTP (voor privé/self-hosted registries) |
Modelparameters overschrijven zonder Modelfile (-p / –parameters)
De -p vlag laat je inferenceparameters aanpassen tijdens runtime zonder een Modelfile aan te maken.
Je kunt meerdere -p vlaggen stapelen:
# Verhoog de contextvenster en verlaag de temperatuur
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5
# Draai een codeopdracht met deterministische uitvoer
ollama run devstral:24b -p temperature=0 -p num_ctx=65536
Gewone parameters die je op deze manier kunt instellen:
| Parameter | Effect |
|---|---|
num_ctx |
Contextvenster grootte in tokens (standaard is modelafhankelijk, vaak 2048–4096) |
temperature |
Willekeurigheid: 0 = deterministisch, 1 = creatief |
top_p |
Nucleus sampling drempel |
top_k |
Beperk het woordenboek tot top-K tokens |
num_predict |
Maximaal aantal tokens om te genereren (-1 = onbeperkt) |
repeat_penalty |
Straf voor herhalende tokens |
Meervoudige invoer in de REPL
Omsluit tekst in drievoudige aanhalingstekens ("\"\"\") om een meervoudig prompt in te voeren zonder vroegtijdig in te dienen:
>>> """Samenvat dit in één zin:
... De snelle bruine vos springt over de lui hond.
... Het gebeurde op een dinsdag.
... """
Multimodale modellen (afbeeldingen)
Voor vision-vaardige modellen (bijvoorbeeld gemma3, llava), geef een afbeeldingspad direct in de prompt:
ollama run gemma3 "Wat is er in deze afbeelding? /home/user/screenshot.png"
Embeddingen genereren via CLI
Embedding modellen geven een JSON-array uit in plaats van tekst. Pijp tekst direct voor snelle eenmalige embedding:
echo "Hallo wereld" | ollama run nomic-embed-text
Voor productie-embedding werkbelastingen gebruik de /api/embeddings REST-eindpunt of de Python-client in plaats daarvan.
Forceer JSON-uitvoer (–format)
ollama run llama3.2 --format json "Lijst 5 hoofdsteden als JSON"
Het model wordt opgedragen om geldige JSON terug te geven. Handig wanneer uitvoer wordt gepiped naar jq of een script dat gestructureerde gegevens verwacht.
Ollama stop opdracht
Deze opdracht stopt het opgegeven actieve model.
ollama stop llama3.1:8b-instruct-q8_0
Ollama verwijdert modellen automagisch na enige tijd.
Je kunt deze tijd specificeren, standaard is het 4 minuten.
Als je niet wilt wachten op de resterende tijd, wil je mogelijk deze ollama stop opdracht gebruiken.
Je kunt ook het model uit de VRAM duwen door de /generate API-eindpunt aan te roepen met parameter keep_alive=0, zie hieronder voor de beschrijving en voorbeeld.
Ollama ps opdracht
ollama ps toont momenteel actieve modellen en sessies (handig om te debuggen “waarom is mijn VRAM vol?”).
ollama ps
Een voorbeeld van de ollama ps uitvoer is hieronder:
NAAM ID GROOTTE VERWERKER CONTEXT TOT
gpt-oss:20b 17052f91a42e 14 GB 100% GPU 4096 4 minuten vanaf nu
Je ziet hier op mijn PC dat gpt-oss:20b zich goed in mijn GPU’s 16 GB VRAM past en alleen 14 GB in beslag neemt.
Als ik ollama run gpt-oss:120b uitvoer en dan ollama ps aanroept, is het resultaat niet zo goed:
78% van de lagen zijn op CPU, en dit is al met een contextvenster van 4096 tokens. Het zou erger zijn als ik de context zou moeten verhogen.
NAAM ID GROOTTE VERWERKER CONTEXT TOT
gpt-oss:120b a951a23b46a1 66 GB 78%/22% CPU/GPU 4096 4 minuten vanaf nu
Ollama launch opdracht (AI-coderingsintegraties)
ollama launch is een opdracht geïntroduceerd in Ollama v0.15 (januari 2026) die je zero-config, one-line setup geeft voor populaire AI-coderingsassistenten die lokaal op je Ollama-server draaien.
Waarom ollama launch gebruiken?
Voor ollama launch, het aansluiten van een coderingsagent zoals Claude Code of Codex op een lokale Ollama-backend betekende handmatig instellen van omgevingsvariabelen, het wijzen van het gereedschap naar het juiste API-eindpunt en het kiezen van een compatibel model. ollama launch doet al dat voor je interactief.
Als je al lokaal Ollama draait en een agente coderingsassistent wilt zonder betaalde API-aanroepen of het sturen van code naar de cloud, is ollama launch de snelste weg daarheen.
Ondersteunde integraties
| Integratie | Wat het is |
|---|---|
claude |
Anthropic’s Claude Code — agente coderingsassistent |
codex |
OpenAI’s Codex CLI coderingsassistent |
droid |
Factory’s AI coderingsagent |
opencode |
Open-source coderingsassistent |
Basisgebruik
# Interactieve picker — kies een integratie uit een menu
ollama launch
# Start een specifieke integratie direct
ollama launch claude
# Start met een specifiek model
ollama launch claude --model qwen3-coder
# Configureer de integratie zonder het te starten (handig om instellingen te inspecteren)
ollama launch droid --config
Aanbevolen modellen
Coderingsagenten hebben een lange contextvenster nodig om gehele bestand context en meervoudige conversatiegeschiedenis te bevatten. Ollama aanbeveelt modellen met minstens 64 000 tokens van context:
| Model | Opmerkingen |
|---|---|
qwen3-coder |
Sterke coderingsprestaties, lange context, draait lokaal |
glm-4.7-flash |
Snel lokale optie |
devstral:24b |
Mistral’s coderingsgerichte model |
Als je GPU niet groot genoeg is om het model op te nemen, biedt Ollama ook cloud-gehoste varianten (bijvoorbeeld qwen3-coder:480b-cloud) die op dezelfde manier integreren, maar de inferentie naar Ollama’s cloudlaag routeren — wat ollama signin vereist.
Voorbeeld: Claude Code lokaal draaien met Ollama
# 1. Zorg dat het model beschikbaar is
ollama pull qwen3-coder
# 2. Start Claude Code erop
ollama launch claude --model qwen3-coder
Ollama stelt de benodigde omgevingsvariabelen in en start Claude Code die naar http://localhost:11434 wijst automatisch.
Je kunt dan Claude Code gebruiken zoals je dat normaal zou doen — het enige verschil is dat de inferentie op je eigen hardware plaatsvindt.
Prestatieknoppen (OLLAMA_NUM_PARALLEL)
Als je wachtrijen of time-outs ziet onder belasting, is de eerste knop om te leren OLLAMA_NUM_PARALLEL.
OLLAMA_NUM_PARALLEL= hoeveel aanvragen Ollama gelijktijdig uitvoert.- Een hogere waarde kan doorstroming verhogen, maar kan VRAM-druk en latency-schommelingen verhogen.
Snel voorbeeld:
OLLAMA_NUM_PARALLEL=2 ollama serve
Voor een volledige uitleg (inclusief afstemmingsstrategieën en falenmodi), zie:
Ollama model vrijmaken van VRAM (keep_alive)
Wanneer een model is geladen in VRAM (GPU-geheugen), blijft het daar zelfs na het gebruik. Om expliciet een model vrij te maken van VRAM en GPU-geheugen vrij te maken, kun je een aanvraag sturen naar de Ollama API met keep_alive: 0.
- Model vrijmaken van VRAM met curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Vervang MODELNAME met je werkelijke modelnaam, bijvoorbeeld:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Model vrijmaken van VRAM met Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Dit is vooral handig wanneer:
- Je GPU-geheugen vrij moet maken voor andere toepassingen
- Je meerdere modellen draait en wil VRAM-gebruik beheren
- Je een groot model hebt gebruikt en wil resources direct vrijmaken
Opmerking: De keep_alive parameter bepaalt hoe lang (in seconden) een model in het geheugen blijft geladen na de laatste aanvraag. Het instellen op 0 ontlaadt het model direct van VRAM.
Aanpassen van Ollama modellen (systeemprompt, Modelfile)
-
Stel systeemprompt in: Binnen de Ollama REPL, kun je een systeemprompt instellen om het gedrag van het model aan te passen:
>>> /set systeem Voor alle vragen beantwoord in het Engels, vermijd technische jargon zo veel mogelijk >>> /save ipe >>> /byeDan, draai het aangepaste model:
ollama run ipeDit stelt een systeemprompt in en slaat het model op voor toekomstig gebruik.
-
Maak een aangepast modelbestand: Maak een tekstbestand (bijvoorbeeld
custom_model.txt) met de volgende structuur:VAN llama3.1 SYSTEEM [Je aangepaste instructies hier]Dan, voer uit:
ollama create mymodel -f custom_model.txt ollama run mymodelDit maakt een aangepast model op basis van de instructies in het bestand".
Ollama signin en signout (registry authenticatie)
ollama signin
ollama signout
ollama signin verifieert je lokale Ollama-installatie met de Ollama-registry op ollama.com. Nadat je bent ingelogd, slaat de client de referenties lokaal op en gebruikt ze automatisch voor volgende opdrachten.
Wat signin ontgrendelt:
- Pullen en pushen van private modellen van je account of organisatie.
- Gebruik van cloudgehoste modellen (bijvoorbeeld
qwen3-coder:480b-cloud) die te groot zijn om lokaal te draaien. - Publiceren van modellen op de registry met
ollama push.
Alternatief: API-sleutel authenticatie
Als je Ollama draait in een CI-pijplijn of op een headless server waarbij interactieve ollama signin niet praktisch is, maak dan een API-sleutel aan in je Ollama-accountinstellingen en exposeer deze als een omgevingsvariabele:
export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model
De variabele OLLAMA_API_KEY wordt automatisch opgepakt door elke Ollama-opdracht en API-aanvraag — er is geen behoefte om ollama signin op elke machine uit te voeren.
Ollama run opdracht gebruiken met bestanden (samenvatten, omleiden)
-
Samenvatten van tekst uit een bestand:
ollama run llama3.2 "Samenvat de inhoud van dit bestand in 50 woorden." < input.txtDeze opdracht samenvat de inhoud van
input.txtmet behulp van het opgegeven model. -
Log modelantwoorden naar een bestand:
ollama run llama3.2 "Vertel me over hernieuwbare energie." > output.txtDeze opdracht slaat het modelantwoord op in
output.txt.
Ollama CLI gebruikscases (tekstgeneratie, analyse)
-
Tekstgeneratie:
- Samenvatten van een groot tekstbestand:
ollama run llama3.2 "Samenvat de volgende tekst:" < long-document.txt - Tekst genereren:
ollama run llama3.2 "Schrijf een korte artikel over de voordelen van het gebruik van AI in de gezondheidszorg." > article.txt - Beantwoorden van specifieke vragen:
ollama run llama3.2 "Wat zijn de nieuwste trends in AI, en hoe zullen ze de gezondheidszorg beïnvloeden?"
.
- Samenvatten van een groot tekstbestand:
-
Data processing en analyse:
- Classificeren van tekst in positief, negatief of neutraal sentiment:
ollama run llama3.2 "Analyseer het sentiment van deze klantrecensie: 'Het product is fantastisch, maar levering was traag.'" - Categorieëren van tekst in vooraf gedefinieerde categorieën: Gebruik vergelijkbare opdrachten om tekst te classificeren of te categoriseren op basis van vooraf gedefinieerde criteria.
- Classificeren van tekst in positief, negatief of neutraal sentiment:
Ollama gebruiken met Python (client en API)
- Installeer Ollama Python-bibliotheek:
pip install ollama - Genereer tekst met behulp van Python:
Dit codefragment genereert tekst met behulp van het opgegeven model en prompt.
import ollama response = ollama.generate(model='gemma:2b', prompt='wat is een qubit?') print(response['response'])
Voor geavanceerde Python-integratie, verkennen het gebruik van Ollama’s Web Search API in Python, die webzoekfunctionaliteit, toolcalling en MCP-serverintegratie behandelt. Als je AI-gemotoriseerde toepassingen bouwt, kan onze AI Coding Assistants vergelijking je helpen de juiste tools voor ontwikkeling te kiezen.
Zoek je naar een webgebaseerde interface? Open WebUI biedt een zelfgehoste interface met RAG-functionaliteit en multi-gebruikersondersteuning. Voor hoge prestaties in productieomgevingen, overweeg vLLM als alternatief. Om Ollama te vergelijken met andere lokale en cloud LLM-infrastructuurkeuzes, zie LLM Hosting: Lokale, zelfgehoste & Cloudinfrastructuur vergeleken.
Nuttige links
Configuratie en Beheer
Alternatieven en Vergelijkingen
- Lokale LLM-hosting: Volledige 2026 gids - Ollama, vLLM, LocalAI, Jan, LM Studio & Meer
- vLLM Quickstart: Hoge prestaties LLM-serving
- Docker Model Runner vs Ollama: Welk te kiezen?
- Eerste tekenen van Ollama Enshittification
Prestaties en Hardware
- Hoe Ollama Parallelle Aanvragen Afhandelt
- Hoe Ollama Intel CPU-prestaties en efficiënte kernen gebruikt
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama Prestatievergelijking
- DGX Spark vs. Mac Studio: Een praktische, prijsgecontroleerde kijk op NVIDIA’s persoonlijke AI-supercomputer
Integratie en Ontwikkeling
- Ollama Web Search API gebruiken in Python
- AI Coding Assistants Vergelijking
- Open WebUI: Zelfgehoste LLM-interface
- Open-source chat UIs voor LLMs op lokale Ollama-instanties
- LLMs beperken met gestructureerde uitvoer: Ollama, Qwen3 & Python of Go
- Ollama integreren met Python: REST API en Python-clientvoorbeelden
- Go SDKs voor Ollama - vergelijking met voorbeelden