Ollama CLI Cheat Sheet: ls, serve, run, ps + commanden (2026 update)

Bijgewerkte lijst met Ollama-opdrachten - ls, ps, run, serve, enz.

Inhoud

Deze Ollama CLI cheat sheet richt zich op de opdrachten die je elke dag gebruikt (ollama ls, ollama serve, ollama run, ollama ps, modelbeheer en veelvoorkomende workflows), met voorbeelden die je kunt kopiëren/pasten.

Het bevat ook een korte sectie over “prestatieknoppen” om je te helpen ontdekken (en dan dieper in te duiken) OLLAMA_NUM_PARALLEL en gerelateerde instellingen.

ollama cheat sheet

Deze Ollama cheat sheet richt zich op CLI-opdrachten, modelbeheer en aanpassingen, Maar we hebben hier ook enkele curl oproepen.

Voor een volledig beeld van waar Ollama zich bevindt onder lokale, zelfgehoste en cloudopties—met inbegrip van vLLM, Docker Model Runner, LocalAI en cloudproviders—zie LLM Hosting: Lokale, zelfgehoste & Cloudinfrastructuur vergeleken. Als je verschillende lokale LLM-hostingoplossingen vergelijkt, bekijk dan onze uitgebreide vergelijking van Ollama, vLLM, LocalAI, Jan, LM Studio en meer. Voor wie alternatieven zoekt voor command-lineinterfaces, biedt Docker Model Runner een andere aanpak voor LLM-implementatie.

Ollama installatie (download en CLI-installatie)

  • Optie 1: Download vanaf de website
    • Bezoek ollama.com en download de installatie voor je besturingssysteem (Mac, Linux of Windows).
  • Optie 2: Installeer via de command line
    • Voor gebruikers van Mac en Linux, gebruik de opdracht:
curl -fsSL https://ollama.com/install.sh | sh
  • Volg de opscherm-instructies en geef je wachtwoord op als dat wordt gevraagd.

Ollama systeemvereisten (RAM, opslag, CPU)

Voor serieuze AI-werkbelastingen, wil je mogelijk hardwareopties vergelijken. We hebben getest NVIDIA DGX Spark vs Mac Studio vs RTX-4080 prestaties met Ollama, en als je overweegt te investeren in high-end hardware, biedt onze DGX Spark-prijzen en capaciteitenvergelijking gedetailleerde kostanalyse.

Basis Ollama CLI-opdrachten

Opdracht Beschrijving
ollama serve Start de Ollama-server (standaardpoort 11434).
ollama run <model> Voer het opgegeven model uit in een interactieve REPL.
ollama pull <model> Download het opgegeven model naar je systeem.
ollama push <model> Upload een model naar de Ollama-registry.
ollama list Lijst alle gedownloade modellen. Hetzelfde als ollama ls.
ollama ps Toont momenteel actieve (geladen) modellen.
ollama stop <model> Stopt (ontlaadt) een actief model.
ollama rm <model> Verwijdert een model van je systeem.
ollama cp <source> <dest> Kopieert een model onder een nieuw naam lokaal.
ollama show <model> Toont details over een model (architectuur, parameters, sjabloon, enz.).
ollama create <model> Maakt een nieuw model aan vanuit een Modelfile.
ollama launch [integratie] Nulconfiguratie-lancering van AI-coderingsassistenten (Claude Code, Codex, Droid, OpenCode).
ollama signin Verifieert met de Ollama-registry (inschakelt private modellen en cloudmodellen).
ollama signout Meldt je af van de Ollama-registry.
ollama help Geeft hulp over elke opdracht.

Spring links: Ollama serve opdracht · Ollama launch opdracht · Ollama run opdracht · Ollama run flags · Ollama ps opdracht · Ollama show opdracht · Ollama signin · Ollama CLI basis · Prestatieknoppen (OLLAMA_NUM_PARALLEL) · Parallelle aanvragen diep doornemen

Ollama CLI (wat het is)

Ollama CLI is de command-line interface om modellen te beheren en ze lokaal te draaien/te serveren. De meeste workflows worden teruggebracht tot:

  • Start de server: ollama serve
  • Een model draaien: ollama run <model>
  • Zie wat is geladen/gelopen: ollama ps
  • Modellen beheren: ollama pull, ollama list, ollama rm

Ollama modelbeheer: pull en list modelopdrachten

Modellen lijsten:

ollama list

hetzelfde als:

ollama ls

Deze opdracht lijst alle modellen die zijn gedownload naar je systeem, met hun bestandsgrootte op je hdd/sdd, zoals

$ ollama ls
NAAM                                                    ID              GROOTTE      MODIFIEERD     
deepseek-r1:8b                                          6995872bfe4c    5,2 GB    2 weken geleden     
gemma3:12b-it-qat                                       5d4fa005e7bb    8,9 GB    2 weken geleden     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 weken geleden     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4,7 GB    4 weken geleden     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2,9 GB    4 weken geleden     
qwen3:8b                                                500a1f067a9f    5,2 GB    5 weken geleden     
qwen3:14b                                               bdbd181c33f2    9,3 GB    5 weken geleden     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 weken geleden     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 weken geleden  

Een model downloaden: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

Deze opdracht download het opgegeven model (bijvoorbeeld Gemma 2B, of mistral-nemo:12b-instruct-2407-q6_K) naar je systeem. De modelbestanden kunnen vrij groot zijn, dus houd de ruimte in de gaten die modellen gebruiken op de harde schijf of ssd. Je zou zelfs kunnen willen alle Ollama-modellen van je thuisdirectory verplaatsen naar een andere grotere en betere schijf

Een model uploaden: ollama push

ollama push my-custom-model

Uploadt een lokaal model naar de Ollama-registry zodat anderen het kunnen downloaden. Je moet eerst ingelogd zijn (ollama signin) en de modelnaam moet voorafgaan met je Ollama-gebruikersnaam, bijvoorbeeld myuser/my-model. Gebruik --insecure als je een model uploadt naar een privé-registry over HTTP:

ollama push myuser/my-model --insecure

Een model kopiëren: ollama cp

ollama cp llama3.2 my-llama3-variant

Maakt een lokale kopie van een model onder een nieuwe naam zonder iets opnieuw te downloaden. Dit is handig voordat je een Modelfile bewerkt — kopieer eerst, pas de kopie aan en houd het origineel intact:

ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile

Ollama show opdracht

ollama show print informatie over een gedownloade model.

ollama show qwen3:14b

Standaard print het de modelkaart (architectuur, contextlengte, embeddinglengte, kwantificatie, enz.). Er zijn drie nuttige vlaggen:

Vlag Wat het toont
--modelfile Het volledige Modelfile dat gebruikt is om het model aan te maken (FROM, SYSTEM, TEMPLATE, PARAMETER regels)
--parameters Alleen de parameterblok (bijvoorbeeld num_ctx, temperature, stop tokens)
--verbose Uitgebreide metagegevens inclusief tensorvormen en laagcounts
# Zie precies welk systeemprompt en sjabloon een model is gebouwd met
ollama show deepseek-r1:8b --modelfile

# Controleer de contextvenster grootte en andere inferentieparameters
ollama show qwen3:14b --parameters

# Volledige tensor-niveau detail (handig bij debuggen van kwantificatie)
ollama show llama3.2 --verbose

De uitvoer van --modelfile is vooral nuttig voordat je een model aanpast: je kunt de basis Modelfile kopiëren en van daaruit bewerken in plaats van er een vanaf nul te schrijven.

Ollama serve opdracht

ollama serve start de lokale Ollama-server (standaard HTTP-poort 11434).

ollama serve

“ollama serve” opdracht (systemd-vriendelijk voorbeeld):

# stel omgevingsvariabelen in, dan start de server
# maak ollama beschikbaar op het hosts IP-adres
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Ollama run opdracht

Een model draaien:

ollama run gpt-oss:20b

Deze opdracht start het opgegeven model en opent een interactieve REPL voor interactie. Wil je weten hoe Ollama meerdere gelijktijdige aanvragen beheert? Lees meer over hoe Ollama parallelle aanvragen afhandelt in onze gedetailleerde analyse.

ollama run draait een model in een interactieve sessie, dus in het geval van gpt-oss:120b zou je iets zien als

$ ollama run gpt-oss:120b
>>> Stuur een bericht (/? voor hulp)

je kunt je vragen of opdrachten typen en het model zal antwoorden.

>>> wie ben jij?
Denkend...
De gebruiker vraagt "wie ben jij?" Eenvoudige vraag. Moet als ChatGPT antwoorden, een AI-taalmodel, getraind door OpenAI, 
enz. Geef korte introductie. Waarschijnlijk vragen of ze hulp nodig hebben.
...gedacht.

Ik ben ChatGPT, een AI-taalmodel gemaakt door OpenAI. Ik ben getraind op een breed bereik van tekst zodat ik kan helpen 
antwoorden op vragen, brainstormen met ideeën, uitleggen van concepten, schrijven van teksten, probleemoplossing en veel meer. Denk 
van mij als een veelzijdig virtueel assistent—hier om informatie, ondersteuning en conversatie te bieden wanneer je dat nodig hebt. Hoe kan ik je vandaag helpen?

>>> Stuur een bericht (/? voor hulp)

Om de interactieve ollama sessie te verlaten, druk op Ctrl+D, of je kunt /bye typen, hetzelfde resultaat:

>>> /bye
$ 

Voorbeelden van Ollama run opdrachten

Om een model te draaien en een enkele vraag te stellen in een niet-interactive modus:

printf "Geef me 10 bash one-liners voor loganalyse.\n" | ollama run llama3.2

Als je gedetailleerde uitgebreide LLM-antwoord in de ollama sessie wilt zien - draai het model met --verbose of -v parameter:

$ ollama run gpt-oss:20b --verbose
>>> wie ben jij?
Denkend...
We moeten reageren op een eenvoudige vraag: "wie ben jij?" De gebruiker vraagt "wie ben jij?" We kunnen antwoorden dat we 
zijn ChatGPT, een groot taalmodel getraind door OpenAI. We kunnen ook de mogelijkheden noemen. De gebruiker verwacht waarschijnlijk 
een korte introductie. We houden het vriendelijk.
...gedacht.

Ik ben ChatGPT, een groot taalmodel gemaakt door OpenAI. Ik ben hier om vragen te beantwoorden, uitleg te geven, 
ideeën te brainstormen en over een breed bereik van onderwerpen te praten—alles van wetenschap en geschiedenis tot creatief schrijven 
en dagelijks advies. Laat me weten wat je graag wilt bespreken!

totaal duur:       1,118585707s
laadduur:        106,690543ms
prompt eval tel:    71 token(s)
prompt eval duur: 30,507392ms
prompt eval snelheid: 2327,30 tokens/s
eval tel:           132 token(s)
eval duur:        945,801569ms
eval snelheid:            139,56 tokens/s
>>> /bye
$ 

Ja, dat is juist, het is 139 tokens per seconde. De gpt-oss:20b is erg snel. Als jij, net zoals ik, een GPU met 16 GB VRAM hebt - zie de LLMs snelheid vergelijking details in Beste LLMs voor Ollama op 16 GB VRAM GPU.

Tip: Als je het model beschikbaar wilt maken via HTTP voor meerdere apps, start dan de server met ollama serve en gebruik de API-client in plaats van lange interactieve sessies.

Ollama run vlaggen (volledige referentie)

Vlag Beschrijving
--verbose / -v Print timing statistieken (tokens/s, laadtijd, enz.) na elk antwoord
-p, --parameters Geef modelparameters inline zonder Modelfile (zie hieronder)
--format string Forceer een specifieke uitvoerformaat, bijvoorbeeld json
--nowordwrap Geen automatische woordverwijding — handig wanneer uitvoer wordt gepiped naar scripts
--insecure Toestaan van verbinding met een registry via HTTP (voor privé/self-hosted registries)

Modelparameters overschrijven zonder Modelfile (-p / –parameters)

De -p vlag laat je inferenceparameters aanpassen tijdens runtime zonder een Modelfile aan te maken. Je kunt meerdere -p vlaggen stapelen:

# Verhoog de contextvenster en verlaag de temperatuur
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5

# Draai een codeopdracht met deterministische uitvoer
ollama run devstral:24b -p temperature=0 -p num_ctx=65536

Gewone parameters die je op deze manier kunt instellen:

Parameter Effect
num_ctx Contextvenster grootte in tokens (standaard is modelafhankelijk, vaak 2048–4096)
temperature Willekeurigheid: 0 = deterministisch, 1 = creatief
top_p Nucleus sampling drempel
top_k Beperk het woordenboek tot top-K tokens
num_predict Maximaal aantal tokens om te genereren (-1 = onbeperkt)
repeat_penalty Straf voor herhalende tokens

Meervoudige invoer in de REPL

Omsluit tekst in drievoudige aanhalingstekens ("\"\"\") om een meervoudig prompt in te voeren zonder vroegtijdig in te dienen:

>>> """Samenvat dit in één zin:
... De snelle bruine vos springt over de lui hond.
... Het gebeurde op een dinsdag.
... """

Multimodale modellen (afbeeldingen)

Voor vision-vaardige modellen (bijvoorbeeld gemma3, llava), geef een afbeeldingspad direct in de prompt:

ollama run gemma3 "Wat is er in deze afbeelding? /home/user/screenshot.png"

Embeddingen genereren via CLI

Embedding modellen geven een JSON-array uit in plaats van tekst. Pijp tekst direct voor snelle eenmalige embedding:

echo "Hallo wereld" | ollama run nomic-embed-text

Voor productie-embedding werkbelastingen gebruik de /api/embeddings REST-eindpunt of de Python-client in plaats daarvan.

Forceer JSON-uitvoer (–format)

ollama run llama3.2 --format json "Lijst 5 hoofdsteden als JSON"

Het model wordt opgedragen om geldige JSON terug te geven. Handig wanneer uitvoer wordt gepiped naar jq of een script dat gestructureerde gegevens verwacht.

Ollama stop opdracht

Deze opdracht stopt het opgegeven actieve model.

ollama stop llama3.1:8b-instruct-q8_0

Ollama verwijdert modellen automagisch na enige tijd. Je kunt deze tijd specificeren, standaard is het 4 minuten. Als je niet wilt wachten op de resterende tijd, wil je mogelijk deze ollama stop opdracht gebruiken. Je kunt ook het model uit de VRAM duwen door de /generate API-eindpunt aan te roepen met parameter keep_alive=0, zie hieronder voor de beschrijving en voorbeeld.

Ollama ps opdracht

ollama ps toont momenteel actieve modellen en sessies (handig om te debuggen “waarom is mijn VRAM vol?”).

ollama ps

Een voorbeeld van de ollama ps uitvoer is hieronder:

NAAM           ID              GROOTTE     VERWERKER    CONTEXT    TOT
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 minuten vanaf nu

Je ziet hier op mijn PC dat gpt-oss:20b zich goed in mijn GPU’s 16 GB VRAM past en alleen 14 GB in beslag neemt.

Als ik ollama run gpt-oss:120b uitvoer en dan ollama ps aanroept, is het resultaat niet zo goed: 78% van de lagen zijn op CPU, en dit is al met een contextvenster van 4096 tokens. Het zou erger zijn als ik de context zou moeten verhogen.

NAAM            ID              GROOTTE     VERWERKER          CONTEXT    TOT
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 minuten vanaf nu

Ollama launch opdracht (AI-coderingsintegraties)

ollama launch is een opdracht geïntroduceerd in Ollama v0.15 (januari 2026) die je zero-config, one-line setup geeft voor populaire AI-coderingsassistenten die lokaal op je Ollama-server draaien.

Waarom ollama launch gebruiken?

Voor ollama launch, het aansluiten van een coderingsagent zoals Claude Code of Codex op een lokale Ollama-backend betekende handmatig instellen van omgevingsvariabelen, het wijzen van het gereedschap naar het juiste API-eindpunt en het kiezen van een compatibel model. ollama launch doet al dat voor je interactief.

Als je al lokaal Ollama draait en een agente coderingsassistent wilt zonder betaalde API-aanroepen of het sturen van code naar de cloud, is ollama launch de snelste weg daarheen.

Ondersteunde integraties

Integratie Wat het is
claude Anthropic’s Claude Code — agente coderingsassistent
codex OpenAI’s Codex CLI coderingsassistent
droid Factory’s AI coderingsagent
opencode Open-source coderingsassistent

Basisgebruik

# Interactieve picker — kies een integratie uit een menu
ollama launch

# Start een specifieke integratie direct
ollama launch claude

# Start met een specifiek model
ollama launch claude --model qwen3-coder

# Configureer de integratie zonder het te starten (handig om instellingen te inspecteren)
ollama launch droid --config

Aanbevolen modellen

Coderingsagenten hebben een lange contextvenster nodig om gehele bestand context en meervoudige conversatiegeschiedenis te bevatten. Ollama aanbeveelt modellen met minstens 64 000 tokens van context:

Model Opmerkingen
qwen3-coder Sterke coderingsprestaties, lange context, draait lokaal
glm-4.7-flash Snel lokale optie
devstral:24b Mistral’s coderingsgerichte model

Als je GPU niet groot genoeg is om het model op te nemen, biedt Ollama ook cloud-gehoste varianten (bijvoorbeeld qwen3-coder:480b-cloud) die op dezelfde manier integreren, maar de inferentie naar Ollama’s cloudlaag routeren — wat ollama signin vereist.

Voorbeeld: Claude Code lokaal draaien met Ollama

# 1. Zorg dat het model beschikbaar is
ollama pull qwen3-coder

# 2. Start Claude Code erop
ollama launch claude --model qwen3-coder

Ollama stelt de benodigde omgevingsvariabelen in en start Claude Code die naar http://localhost:11434 wijst automatisch. Je kunt dan Claude Code gebruiken zoals je dat normaal zou doen — het enige verschil is dat de inferentie op je eigen hardware plaatsvindt.

Prestatieknoppen (OLLAMA_NUM_PARALLEL)

Als je wachtrijen of time-outs ziet onder belasting, is de eerste knop om te leren OLLAMA_NUM_PARALLEL.

  • OLLAMA_NUM_PARALLEL = hoeveel aanvragen Ollama gelijktijdig uitvoert.
  • Een hogere waarde kan doorstroming verhogen, maar kan VRAM-druk en latency-schommelingen verhogen.

Snel voorbeeld:

OLLAMA_NUM_PARALLEL=2 ollama serve

Voor een volledige uitleg (inclusief afstemmingsstrategieën en falenmodi), zie:

Ollama model vrijmaken van VRAM (keep_alive)

Wanneer een model is geladen in VRAM (GPU-geheugen), blijft het daar zelfs na het gebruik. Om expliciet een model vrij te maken van VRAM en GPU-geheugen vrij te maken, kun je een aanvraag sturen naar de Ollama API met keep_alive: 0.

  • Model vrijmaken van VRAM met curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Vervang MODELNAME met je werkelijke modelnaam, bijvoorbeeld:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Model vrijmaken van VRAM met Python:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Dit is vooral handig wanneer:

  • Je GPU-geheugen vrij moet maken voor andere toepassingen
  • Je meerdere modellen draait en wil VRAM-gebruik beheren
  • Je een groot model hebt gebruikt en wil resources direct vrijmaken

Opmerking: De keep_alive parameter bepaalt hoe lang (in seconden) een model in het geheugen blijft geladen na de laatste aanvraag. Het instellen op 0 ontlaadt het model direct van VRAM.

Aanpassen van Ollama modellen (systeemprompt, Modelfile)

  • Stel systeemprompt in: Binnen de Ollama REPL, kun je een systeemprompt instellen om het gedrag van het model aan te passen:

    >>> /set systeem Voor alle vragen beantwoord in het Engels, vermijd technische jargon zo veel mogelijk
    >>> /save ipe
    >>> /bye
    

    Dan, draai het aangepaste model:

    ollama run ipe
    

    Dit stelt een systeemprompt in en slaat het model op voor toekomstig gebruik.

  • Maak een aangepast modelbestand: Maak een tekstbestand (bijvoorbeeld custom_model.txt) met de volgende structuur:

    VAN llama3.1
    SYSTEEM [Je aangepaste instructies hier]
    

    Dan, voer uit:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    Dit maakt een aangepast model op basis van de instructies in het bestand".

Ollama signin en signout (registry authenticatie)

ollama signin
ollama signout

ollama signin verifieert je lokale Ollama-installatie met de Ollama-registry op ollama.com. Nadat je bent ingelogd, slaat de client de referenties lokaal op en gebruikt ze automatisch voor volgende opdrachten.

Wat signin ontgrendelt:

  • Pullen en pushen van private modellen van je account of organisatie.
  • Gebruik van cloudgehoste modellen (bijvoorbeeld qwen3-coder:480b-cloud) die te groot zijn om lokaal te draaien.
  • Publiceren van modellen op de registry met ollama push.

Alternatief: API-sleutel authenticatie

Als je Ollama draait in een CI-pijplijn of op een headless server waarbij interactieve ollama signin niet praktisch is, maak dan een API-sleutel aan in je Ollama-accountinstellingen en exposeer deze als een omgevingsvariabele:

export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model

De variabele OLLAMA_API_KEY wordt automatisch opgepakt door elke Ollama-opdracht en API-aanvraag — er is geen behoefte om ollama signin op elke machine uit te voeren.

Ollama run opdracht gebruiken met bestanden (samenvatten, omleiden)

  • Samenvatten van tekst uit een bestand:

    ollama run llama3.2 "Samenvat de inhoud van dit bestand in 50 woorden." < input.txt
    

    Deze opdracht samenvat de inhoud van input.txt met behulp van het opgegeven model.

  • Log modelantwoorden naar een bestand:

    ollama run llama3.2 "Vertel me over hernieuwbare energie." > output.txt
    

    Deze opdracht slaat het modelantwoord op in output.txt.

Ollama CLI gebruikscases (tekstgeneratie, analyse)

  • Tekstgeneratie:

    • Samenvatten van een groot tekstbestand:
      ollama run llama3.2 "Samenvat de volgende tekst:" < long-document.txt
      
    • Tekst genereren:
      ollama run llama3.2 "Schrijf een korte artikel over de voordelen van het gebruik van AI in de gezondheidszorg." > article.txt
      
    • Beantwoorden van specifieke vragen:
      ollama run llama3.2 "Wat zijn de nieuwste trends in AI, en hoe zullen ze de gezondheidszorg beïnvloeden?"
      

    .

  • Data processing en analyse:

    • Classificeren van tekst in positief, negatief of neutraal sentiment:
      ollama run llama3.2 "Analyseer het sentiment van deze klantrecensie: 'Het product is fantastisch, maar levering was traag.'"
      
    • Categorieëren van tekst in vooraf gedefinieerde categorieën: Gebruik vergelijkbare opdrachten om tekst te classificeren of te categoriseren op basis van vooraf gedefinieerde criteria.

Ollama gebruiken met Python (client en API)

  • Installeer Ollama Python-bibliotheek:
    pip install ollama
    
  • Genereer tekst met behulp van Python:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='wat is een qubit?')
    print(response['response'])
    
    Dit codefragment genereert tekst met behulp van het opgegeven model en prompt.

Voor geavanceerde Python-integratie, verkennen het gebruik van Ollama’s Web Search API in Python, die webzoekfunctionaliteit, toolcalling en MCP-serverintegratie behandelt. Als je AI-gemotoriseerde toepassingen bouwt, kan onze AI Coding Assistants vergelijking je helpen de juiste tools voor ontwikkeling te kiezen.

Zoek je naar een webgebaseerde interface? Open WebUI biedt een zelfgehoste interface met RAG-functionaliteit en multi-gebruikersondersteuning. Voor hoge prestaties in productieomgevingen, overweeg vLLM als alternatief. Om Ollama te vergelijken met andere lokale en cloud LLM-infrastructuurkeuzes, zie LLM Hosting: Lokale, zelfgehoste & Cloudinfrastructuur vergeleken.

Configuratie en Beheer

Alternatieven en Vergelijkingen

Prestaties en Hardware

Integratie en Ontwikkeling