Was sind die beliebtesten Befehle in Ollama?

Die beliebtesten Ollama-Befehle sind ollama list, ollama pull, ollama rm und ollama run.

Wo kann ich Ollama mit anderen Optionen zur Bereitstellung von LLMs vergleichen?

Unser Überblick zur LLM-Hosting-Infrastruktur vergleicht Ollama mit vLLM, Docker Model Runner, LocalAI sowie Cloud-Anbietern und beleuchtet dabei die Abwägungen zwischen Kosten und Infrastruktur.

Wo positioniert sich Ollama im Vergleich zu lokalen und Cloud-basierten LLM-Optionen?

Der LLM-Hosting-Leitfaden vergleicht lokale Tools wie Ollama und vLLM mit Cloud-Anbietern und erläutert, wann sich jeweils welche Lösung eignet.

Wie kann ich GPU-Speicher freigeben, nachdem ich ein Ollama-Modell verwendet habe?

Verwenden Sie ollama stop gefolgt vom Modellnamen, um ein laufendes Modell zu beenden, oder senden Sie eine Anfrage an die Ollama API mit keep_alive auf 0 gesetzt, um das Modell sofort aus dem VRAM zu entladen.

Wie installiere ich Ollama auf Linux?

Besuchen Sie ollama.com, um den Installer herunterzuladen, oder führen Sie im Terminal den Befehl curl https://ollama.ai/install.sh | sh aus und befolgen Sie die Anweisungen.

„Welche Systemanforderungen gelten für den Betrieb von Ollama?"

Sie benötigen Mac oder Linux, mindestens 8 GB RAM (16 GB empfohlen), etwa 10 GB freien Speicher für Modelle und einen relativ modernen Prozessor der letzten Jahre.

Wie kann ich sehen, welche Ollama-Modelle derzeit geladen sind oder laufen?

Führen Sie ollama ps aus, um die aktuell geladenen Modelle, deren Größe, die Nutzung von GPU oder CPU sowie die Verweildauer im Arbeitsspeicher aufzulisten.

Wie führe ich ein Ollama-Modell mit einem einzelnen Prompt aus, ohne eine interaktive Sitzung zu öffnen?

Leiten Sie Ihren Prompt an ollama run weiter; zum Beispiel führt printf "Ihre Frage hier\n" | ollama run modelname das Modell einmal aus und beendet sich anschließend.

Wie kann ich parallele Anfragen in Ollama erhöhen oder begrenzen?

Stellen Sie die Umgebungsvariable OLLAMA_NUM_PARALLEL vor dem Start des Servers ein (z. B. OLLAMA_NUM_PARALLEL=2 ollama serve), um zu steuern, wie viele Anfragen Ollama gleichzeitig verarbeitet.

Wie kann ich ein Ollama-Modell anpassen oder ein System-Prompt festlegen?

Verwenden Sie im interaktiven REPL den Befehl /set system und anschließend /save, um ein neues Modell zu erstellen, oder erstellen Sie eine Modelfile mit FROM- und SYSTEM-Zeilen und führen Sie ollama create aus, um ein benutzerdefiniertes Modell zu erstellen.

Ollama CLI-Referenz: ls, serve, run, ps und weitere Befehle (Update 2026)

Aktualisierte Ollama-Befehlsliste – ls, ps, run, serve usw.

Inhaltsverzeichnis

Dieser Ollama CLI-Schnellreferenz konzentriert sich auf die Befehle, die Sie täglich verwenden (ollama ls, ollama serve, ollama run, ollama ps, Modellverwaltung und gängige Workflows), mit Beispielen, die Sie kopieren und einfügen können.

Er enthält auch einen kurzen Abschnitt über „Leistungseinstellungen", der Ihnen hilft, OLLAMA_NUM_PARALLEL und verwandte Einstellungen zu entdecken (und dann detailliert zu untersuchen).

ollama cheatsheet

Diese Ollama-Schnellreferenz konzentriert sich auf CLI-Befehle, Modellverwaltung und Anpassung. Aber wir haben hier auch einige curl-Aufrufe.

Für einen vollständigen Überblick darüber, wo Ollama im Vergleich zu lokalen, selbst gehosteten und Cloud-Optionen steht – einschließlich vLLM, Docker Model Runner, LocalAI und Cloud-Anbietern – sehen Sie LLM Hosting: Lokale, selbst gehostete und Cloud-Infrastruktur im Vergleich. Wenn Sie verschiedene lokale LLM-Hosting-Lösungen vergleichen, werfen Sie einen Blick auf unseren umfassenden Vergleich von Ollama, vLLM, LocalAI, Jan, LM Studio und mehr. Für diejenigen, die Alternativen zu Kommandozeilen-Schnittstellen suchen, bietet Docker Model Runner einen anderen Ansatz für die Bereitstellung von LLMs.

Ollama-Installation (Download und CLI-Installation)

Option 1: Von der Website herunterladen
- Besuchen Sie ollama.com und laden Sie das Installationsprogramm für Ihr Betriebssystem (Mac, Linux oder Windows) herunter.
Option 2: Über die Kommandozeile installieren
- Für Mac- und Linux-Benutzer verwenden Sie den Befehl:

curl -fsSL https://ollama.com/install.sh | sh

Folgen Sie den Anweisungen auf dem Bildschirm und geben Sie Ihr Passwort ein, wenn Sie dazu aufgefordert werden.

Ollama-Systemanforderungen (RAM, Speicher, CPU)

Betriebssystem: Mac, Linux oder Windows
Arbeitsspeicher (RAM): 8GB Minimum, 16GB oder mehr empfohlen
Speicher: Mindestens ~10GB freier Speicherplatz (Modelldateien können wirklich groß sein, siehe hier mehr Ollama-Modelle auf ein anderes Laufwerk verschieben )
Prozessor: Eine relativ moderne CPU (aus den letzten 5 Jahren). Wenn Sie neugierig sind, wie Ollama verschiedene CPU-Architekturen nutzt, sehen Sie unsere Analyse zu wie Ollama Intel-CPU-Leistungs- und Effizienzkerne verwendet.

Für ernsthafte KI-Workloads möchten Sie möglicherweise Hardwareoptionen vergleichen. Wir haben NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080-Leistung mit Ollama benchmarked, und wenn Sie über den Kauf von High-End-Hardware nachdenken, bietet unser DGX Spark Preis- und Funktionsvergleich eine detaillierte Kostenanalyse.

Grundlegende Ollama CLI-Befehle

Befehl	Beschreibung
`ollama serve`	Startet den Ollama-Server (Standardport 11434).
`ollama run <model>`	Führt das angegebene Modell in einer interaktiven REPL aus.
`ollama pull <model>`	Lädt das angegebene Modell auf Ihr System herunter.
`ollama push <model>`	Lädt ein Modell zum Ollama-Registry hoch.
`ollama list`	Listet alle heruntergeladenen Modelle auf. Gleiche wie `ollama ls`.
`ollama ps`	Zeigt derzeit laufende (geladene) Modelle.
`ollama stop <model>`	Stoppt (entlädt) ein laufendes Modell.
`ollama rm <model>`	Entfernt ein Modell von Ihrem System.
`ollama cp <source> <dest>`	Kopiert ein Modell unter einem neuen Namen lokal.
`ollama show <model>`	Zeigt Details über ein Modell (Architektur, Parameter, Vorlage usw.).
`ollama create <model>`	Erstellt ein neues Modell aus einer Modelfile.
`ollama launch [integration]`	Konfigurationsloses Starten von KI-Coding-Assistenten (Claude Code, Codex, Droid, OpenCode).
`ollama signin`	Authentifiziert sich beim Ollama-Registry (ermöglicht private Modelle und Cloud-Modelle).
`ollama signout`	Meldet sich vom Ollama-Registry ab.
`ollama help`	Bietet Hilfe zu jedem Befehl.

Sprunglinks: Ollama serve Befehl · Ollama launch Befehl · Ollama run Befehl · Ollama run Flags · Ollama ps Befehl · Ollama show Befehl · Ollama signin · Ollama CLI Grundlagen · Leistungseinstellungen (OLLAMA_NUM_PARALLEL) · Tiefenblick parallele Anfragen

Ollama CLI (was es ist)

Ollama CLI ist die Kommandozeilen-Schnittstelle zum Verwalten von Modellen und zum lokalen Ausführen/Bereitstellen derselben. Die meisten Workflows laufen auf Folgendes hinaus:

Server starten: ollama serve
Modell ausführen: ollama run <model>
Sehen, was geladen/läuft: ollama ps
Modelle verwalten: ollama pull, ollama list, ollama rm

Ollama-Modellverwaltung: pull und list Modellbefehle

Modelle auflisten:

ollama list

das Gleiche wie:

ollama ls

Dieser Befehl listet alle auf Ihr System heruntergeladenen Modelle mit ihren Dateigrößen auf Ihrer HDD/SSD auf, wie z.B.

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    vor 2 Wochen     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    vor 2 Wochen     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     vor 3 Wochen     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    vor 4 Wochen     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    vor 4 Wochen     
qwen3:8b                                                500a1f067a9f    5.2 GB    vor 5 Wochen     
qwen3:14b                                               bdbd181c33f2    9.3 GB    vor 5 Wochen     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     vor 5 Wochen     
devstral:24b                                            c4b2fa0c33d7    14 GB     vor 5 Wochen

Ein Modell herunterladen: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

Dieser Befehl lädt das angegebene Modell (z.B. Gemma 2B oder mistral-nemo:12b-instruct-2407-q6_K) auf Ihr System herunter. Die Modelldateien können ziemlich groß sein, also behalten Sie den von Modellen auf der Festplatte oder SSD genutzten Speicher im Auge. Sie möchten vielleicht sogar alle Ollama-Modelle aus Ihrem Home-Verzeichnis auf ein anderes, größeres und besseres Laufwerk verschieben

Ein Modell hochladen: ollama push

ollama push my-custom-model

Lädt ein lokales Modell zum Ollama-Registry hoch, damit andere es herunterladen können. Sie müssen sich zuerst anmelden (ollama signin) und der Modellname muss mit Ihrem Ollama-Benutzernamen prefixiert sein, z.B. myuser/my-model. Verwenden Sie --insecure, wenn Sie an ein privates Registry über HTTP pushen:

ollama push myuser/my-model --insecure

Ein Modell kopieren: ollama cp

ollama cp llama3.2 my-llama3-variant

Erstellt eine lokale Kopie eines Modells unter einem neuen Namen, ohne etwas neu herunterzuladen. Das ist nützlich, bevor Sie eine Modelfile bearbeiten – kopieren Sie zuerst, passen Sie die Kopie an und halten Sie das Original intakt:

ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile

Ollama show Befehl

ollama show gibt Informationen über ein heruntergeladenes Modell aus.

ollama show qwen3:14b

Standardmäßig gibt es die Modellkarte aus (Architektur, Kontextlänge, Einbettungslänge, Quantisierung usw.). Es gibt drei nützliche Flags:

Flag	Was es zeigt
`--modelfile`	Die vollständige Modelfile, die zur Erstellung des Modells verwendet wurde (FROM, SYSTEM, TEMPLATE, PARAMETER Zeilen)
`--parameters`	Nur der Parameterblock (z.B. `num_ctx`, `temperature`, `stop` Tokens)
`--verbose`	Erweiterte Metadaten einschließlich Tensorformen und Schichtanzahlen

# Sehen Sie genau, mit welchem System-Prompt und welcher Vorlage ein Modell erstellt wurde
ollama show deepseek-r1:8b --modelfile

# Überprüfen Sie die Kontextfenstergröße und andere Inferenzparameter
ollama show qwen3:14b --parameters

# Vollständige Tensor-Details (nützlich beim Debugging von Quantisierung)
ollama show llama3.2 --verbose

Die --modelfile-Ausgabe ist besonders nützlich, bevor Sie ein Modell anpassen: Sie können die Basis-Modelfile kopieren und von dort aus bearbeiten, anstatt eine von Grund auf neu zu schreiben.

Ollama serve Befehl

ollama serve startet den lokalen Ollama-Server (Standard-HTTP-Port 11434).

ollama serve

“ollama serve” Befehl (systemd-freundliches Beispiel):

# set env vars, dann Server starten
# mache ollama auf der IP-Adresse des Hosts verfügbar
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Ollama run Befehl

Ein Modell ausführen:

ollama run gpt-oss:20b

Dieser Befehl startet das angegebene Modell und öffnet eine interaktive REPL zur Interaktion. Möchten Sie verstehen, wie Ollama mehrere gleichzeitige Anfragen verwaltet? Erfahren Sie mehr darüber wie Ollama parallele Anfragen handhabt in unserer detaillierten Analyse.

ollama run führt ein Modell in einer interaktiven Sitzung aus, also würden Sie im Fall von gpt-oss:120b etwas wie Folgendes sehen:

$ ollama run gpt-oss:120b
>>> Senden Sie eine Nachricht (/? für Hilfe)

Sie können Ihre Fragen oder Befehle eingeben und das Modell wird antworten.

>>> wer bist du?
Denken...
Der Benutzer fragt "wer bist du?" Einfache Frage. Sollte als ChatGPT, ein KI-Sprachmodell, das von OpenAI trainiert wurde, antworten, 
usw. Kurze Einführung geben. Wahrscheinlich fragen, ob sie Hilfe brauchen.
...fertiges Denken.

Ich bin ChatGPT, ein KI-Sprachmodell, das von OpenAI erstellt wurde. Ich wurde auf einer breiten Palette von Texten trainiert, um bei der 
Beantwortung von Fragen, Ideenfindung, Erklärung von Konzepten, Entwurf von Texten, Fehlerbehebung und vielem mehr zu helfen. Denken 
Sie an mich als einen vielseitigen virtuellen Assistenten – hier, um Information, Unterstützung und Gespräch jederzeit bereitzustellen. 
Wie kann ich Ihnen heute helfen?

>>> Senden Sie eine Nachricht (/? für Hilfe)

Um die interaktive Ollama-Sitzung zu beenden, drücken Sie Ctrl+D, oder Sie können /bye eingeben, das gleiche Ergebnis:

>>> /bye
$

Ollama run Befehlsbeispiele

Um ein Modell auszuführen und eine einzelne Frage in einem nicht-interaktiven Modus zu stellen:

printf "Gib mir 10 Bash-One-Liner für die Log-Analyse.\n" | ollama run llama3.2

Wenn Sie eine detaillierte, ausführliche LLM-Antwort in der Ollama-Sitzung sehen möchten, führen Sie das Modell mit dem Parameter --verbose oder -v aus:

$ ollama run gpt-oss:20b --verbose
>>> wer bist du?
Denken...
Wir müssen auf eine einfache Frage antworten: "wer bist du?" Der Benutzer fragt "wer bist du?" Wir können antworten, dass wir 
ChatGPT, ein großes Sprachmodell, das von OpenAI trainiert wurde, sind. Wir können auch Fähigkeiten erwähnen. Der Benutzer erwartet 
wahrscheinlich eine kurze Einführung. Wir werden es freundlich halten.
...fertiges Denken.

Ich bin ChatGPT, ein großes Sprachmodell, das von OpenAI erstellt wurde. Ich bin hier, um bei der Beantwortung von Fragen, 
Angeboten von Erklärungen, Ideenfindung und Gesprächen über eine breite Palette von Themen zu helfen – alles von Wissenschaft und Geschichte 
bis hin zu kreativem Schreiben und alltäglichen Ratschlägen. Sagen Sie mir einfach, worüber Sie sprechen möchten!

Gesamtlaufzeit:       1.118585707s
Ladezeit:        106.690543ms
Prompt-Bewertungszahl:    71 Token(s)
Prompt-Bewertungsdauer: 30.507392ms
Prompt-Bewertungsrate:     2327.30 tokens/s
Bewertungszahl:           132 Token(s)
Bewertungsdauer:        945.801569ms
Bewertungsrate:            139.56 tokens/s
>>> /bye
$

Ja, das ist richtig, es sind 139 Tokens pro Sekunde. Das gpt-oss:20b ist sehr schnell. Wenn Sie, wie ich, eine GPU mit 16GB VRAM haben, sehen Sie die Details zum LLM-Geschwindigkeitsvergleich in Beste LLMs für Ollama auf 16GB VRAM GPU.

Tipp: Wenn Sie das Modell über HTTP für mehrere Apps verfügbar machen möchten, starten Sie den Server mit ollama serve und verwenden Sie den API-Client anstelle von langen interaktiven Sitzungen.

Ollama run Flags (vollständige Referenz)

Flag	Beschreibung
`--verbose` / `-v`	Gibt nach jeder Antwort Timing-Statistiken aus (tokens/s, Ladezeit usw.)
`-p, --parameters`	Übergibt Modellparameter inline ohne Modelfile (siehe unten)
`--format string`	Erzwingt ein bestimmtes Ausgabeformat, z.B. `json`
`--nowordwrap`	Deaktiviert automatische Zeilenumbrüche – nützlich beim Pipen der Ausgabe an Skripte
`--insecure`	Ermöglicht die Verbindung mit einem Registry über HTTP (für private/selbst gehostete Register)

Modellparameter ohne Modelfile überschreiben (-p / –parameters)

Das Flag -p ermöglicht es Ihnen, Inferenzparameter zur Laufzeit zu ändern, ohne eine Modelfile zu erstellen. Sie können mehrere -p-Flags stapeln:

# Erhöhen Sie das Kontextfenster und senken Sie die Temperatur
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5

# Führen Sie eine Coding-Aufgabe mit deterministischer Ausgabe aus
ollama run devstral:24b -p temperature=0 -p num_ctx=65536

Gängige Parameter, die Sie auf diese Weise setzen können:

Parameter	Wirkung
`num_ctx`	Kontextfenstergröße in Tokens (Standard ist modellabhängig, oft 2048–4096)
`temperature`	Zufälligkeit: 0 = deterministisch, 1 = kreativ
`top_p`	Nukleus-Sampling-Schwelle
`top_k`	Beschränkt den Wortschatz auf die Top-K Tokens
`num_predict`	Maximale zu generierende Tokens (-1 = unbegrenzt)
`repeat_penalty`	Strafe für wiederholte Tokens

Mehrzeilige Eingabe in der REPL

Umgeben Sie Text mit doppelten Anführungszeichen ("""), um eine mehrzeilige Eingabe ohne frühes Einreichen zu geben:

>>> """Fasse dies in einem Satz zusammen:
... Der schnelle braune Fuchs springt über den faulen Hund.
... Es geschah am Dienstag.
... """

Multimodale Modelle (Bilder)

Für visionsfähige Modelle (z.B. gemma3, llava) übergeben Sie einen Bildpfad direkt im Prompt:

ollama run gemma3 "Was ist auf diesem Bild? /home/user/screenshot.png"

Generieren von Einbettungen über die CLI

Embedding-Modelle geben ein JSON-Array statt Text aus. Leiten Sie Text direkt für schnelle Einmal-Einbettungen weiter:

echo "Hallo Welt" | ollama run nomic-embed-text

Für produktive Embedding-Workloads verwenden Sie stattdessen den REST-Endpunkt /api/embeddings oder den Python-Client.

Erzwingen von JSON-Ausgabe (–format)

ollama run llama3.2 --format json "Liste 5 Hauptstädte als JSON auf"

Das Modell wird angewiesen, gültiges JSON zurückzugeben. Nützlich, wenn die Ausgabe an jq oder ein Skript weitergeleitet wird, das strukturierte Daten erwartet.

Ollama stop Befehl

Dieser Befehl stoppt das angegebene laufende Modell.

ollama stop llama3.1:8b-instruct-q8_0

Ollama entfernt Modelle automagisch nach einer gewissen Zeit. Sie können diese Zeit angeben, standardmäßig sind es 4 Minuten. Wenn Sie nicht die restliche Zeit warten möchten, möchten Sie vielleicht diesen ollama stop-Befehl verwenden. Sie können das Modell auch aus der VRAM herauskicken, indem Sie den /generate API-Endpunkt mit dem Parameter keep_alive=0 aufrufen, siehe unten für die Beschreibung und ein Beispiel.

Ollama ps Befehl

ollama ps zeigt derzeit laufende Modelle und Sitzungen an (nützlich zum Debuggen von „warum ist meine VRAM voll?").

ollama ps

Das Beispiel der ollama ps-Ausgabe ist unten:

NAME           ID              SIZE     PROCESSOR    CONTEXT    BIS ZU
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       in 4 Minuten

Sie sehen hier auf meinem PC, dass gpt-oss:20b sehr gut in die 16GB VRAM meiner GPU passt und nur 14GB belegt.

Wenn ich ollama run gpt-oss:120b ausführe und dann ollama ps aufrufe, wird das Ergebnis nicht so hell sein: 78% der Schichten sind auf der CPU, und das ist nur mit dem Kontextfenster von 4096 Tokens. Es wird mehr sein, wenn ich den Kontext erhöhen muss.

NAME            ID              SIZE     PROCESSOR          CONTEXT    BIS ZU
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       in 4 Minuten

Ollama launch Befehl (KI-Coding-Integrationen)

ollama launch ist ein Befehl, der in Ollama v0.15 (Januar 2026) eingeführt wurde, der Ihnen eine konfigurierungslose, einzeilige Einrichtung für beliebte KI-Coding-Assistenten bietet, die gegen Ihren lokalen Ollama-Server laufen.

Warum ollama launch verwenden?

Vor ollama launch bedeutete die Einrichtung eines Coding-Agenten wie Claude Code oder Codex mit einem lokalen Ollama-Backend, dass manuell Umgebungsvariablen gesetzt werden mussten, das Tool auf den richtigen API-Endpunkt zeigen musste und ein kompatibles Modell auswählen musste. ollama launch erledigt das alles für Sie interaktiv.

Wenn Sie bereits lokal Ollama ausführen und einen agenturen Coding-Assistenten wollen, ohne für API-Aufrufe zu zahlen oder Code in die Cloud zu senden, ist ollama launch der schnellste Weg dorthin.

Unterstützte Integrationen

Integration	Was es ist
`claude`	Anthropic’s Claude Code – agenturer Coding-Assistent
`codex`	OpenAI’s Codex CLI Coding-Assistent
`droid`	Factory’s KI-Coding-Agent
`opencode`	Open-Source-Coding-Assistent

Grundlegende Verwendung

# Interaktiver Picker – wählen Sie eine Integration aus einem Menü aus
ollama launch

# Starten Sie eine bestimmte Integration direkt
ollama launch claude

# Starten mit einem bestimmten Modell
ollama launch claude --model qwen3-coder

# Konfigurieren Sie die Integration, ohne sie zu starten (nützlich zum Inspizieren von Einstellungen)
ollama launch droid --config

Empfohlene Modelle

Coding-Agenten benötigen ein langes Kontextfenster, um den Kontext ganzer Dateien und den Verlauf mehrer Conversationen zu halten. Ollama empfiehlt Modelle mit mindestens 64 000 Tokens Kontext:

Modell	Hinweise
`qwen3-coder`	Starke Coding-Leistung, langer Kontext, läuft lokal
`glm-4.7-flash`	Schnelle lokale Option
`devstral:24b`	Mistral’s Coding-fokussiertes Modell

Wenn Ihre GPU das Modell nicht fassen kann, bietet Ollama auch cloud-gehostete Varianten (z.B. qwen3-coder:480b-cloud), die gleich integriert werden, aber die Inferenz an Ollama’s Cloud-Ebene weiterleiten – was ollama signin erfordert.

Beispiel: Lokales Ausführen von Claude Code mit Ollama

# 1. Stellen Sie sicher, dass das Modell verfügbar ist
ollama pull qwen3-coder

# 2. Starten Sie Claude Code dagegen
ollama launch claude --model qwen3-coder

Ollama setzt die notwendigen Umgebungsvariablen und startet Claude Code automatisch mit Zeiger auf http://localhost:11434. Sie können dann Claude Code genau so verwenden, wie Sie es normalerweise würden – der einzige Unterschied ist, dass die Inferenz auf Ihrer eigenen Hardware stattfindet.

Leistungseinstellungen (`OLLAMA_NUM_PARALLEL`)

Wenn Sie Warteschlangen oder Timeouts unter Last sehen, ist der erste Knopf, den Sie lernen sollten, OLLAMA_NUM_PARALLEL.

OLLAMA_NUM_PARALLEL = wie viele Anfragen Ollama parallel ausführt.
Ein höherer Wert kann den Durchsatz erhöhen, aber möglicherweise den VRAM-Druck und Latenzspitzen erhöhen.

Schnelles Beispiel:

OLLAMA_NUM_PARALLEL=2 ollama serve

Für eine vollständige Erklärung (einschließlich Abstimmstrategien und Fehlmodes), sehen Sie:

Wie Ollama parallele Anfragen handhabt

Freigabe von Ollama-Modell aus VRAM (keep_alive)

Wenn ein Modell in VRAM (GPU-Speicher) geladen wird, bleibt es dort, auch nachdem Sie damit fertig sind. Um ein Modell explizit aus VRAM zu entladen und GPU-Speicher freizugeben, können Sie eine Anfrage an die Ollama-API mit keep_alive: 0 senden.

Modell aus VRAM mit curl freigeben:

curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Ersetzen Sie MODELNAME durch Ihren tatsächlichen Modellnamen, zum Beispiel:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'

Modell aus VRAM mit Python freigeben:

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Dies ist besonders nützlich, wenn:

Sie GPU-Speicher für andere Anwendungen freigeben müssen
Sie mehrere Modelle ausführen und die VRAM-Nutzung verwalten möchten
Sie mit einem großen Modell fertig sind und Ressourcen sofort freigeben möchten

Hinweis: Der Parameter keep_alive steuert, wie lange (in Sekunden) ein Modell im Speicher bleibt, nachdem die letzte Anfrage gestellt wurde. Das Setzen auf 0 entlädt das Modell sofort aus VRAM.

Wenn Sie Ollama’s Abstraktionsschicht ganz vermeiden und direkte Kontrolle darüber haben möchten, welches GGUF-Modell zu jedem Zeitpunkt resident ist, deckt llama-server router mode den nativen llama.cpp-Ansatz für das dynamische Modell-Switching ab.

Anpassen von Ollama-Modellen (System-Prompt, Modelfile)

System-Prompt setzen: Innerhalb der Ollama-REPL können Sie einen System-Prompt setzen, um das Verhalten des Modells anzupassen:
```
>>> /set system Beantworte alle Fragen in reinem Englisch und vermeide technische Fachbegriffe, so viel wie möglich
>>> /save ipe
>>> /bye
```
Dann führen Sie das angepasste Modell aus:
```
ollama run ipe
```
Dies setzt einen System-Prompt und speichert das Modell für zukünftige Verwendung.
Benutzerdefinierte Modelldatei erstellen: Erstellen Sie eine Textdatei (z.B. custom_model.txt) mit der folgenden Struktur:
```
FROM llama3.1
SYSTEM [Ihre benutzerdefinierten Anweisungen hier]
```
Dann führen Sie aus:
```
ollama create mymodel -f custom_model.txt
ollama run mymodel
```
Dies erstellt ein benutzerdefiniertes Modell basierend auf den Anweisungen in der Datei".

ollama signin
ollama signout

ollama signin authentifiziert Ihre lokale Ollama-Installation mit dem Ollama-Registry bei ollama.com. Sobald angemeldet, speichert der Client die Anmeldeinformationen lokal und verwendet sie automatisch für nachfolgende Befehle.

Was signin freischaltet:

Herunterladen und Hochladen von privaten Modellen von Ihrem Konto oder Ihrer Organisation.
Verwendung von cloud-gehosteten Modellen (z.B. qwen3-coder:480b-cloud), die zu groß sind, um lokal ausgeführt zu werden.
Veröffentlichen von Modellen im Registry mit ollama push.

Alternative: API-Key-Authentifizierung

Wenn Sie Ollama in einer CI-Pipeline oder einem headless-Server ausführen, wo interaktives ollama signin nicht praktikabel ist, erstellen Sie einen API-Key in Ihren Ollama-Kontoeinstellungen und exponieren Sie ihn als Umgebungsvariable:

export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model

Die Variable OLLAMA_API_KEY wird automatisch von jedem Ollama-Befehl und API-Aufruf abgerufen – kein Bedarf, ollama signin auf jeder Maschine auszuführen.

Verwendung des Ollama run Befehls mit Dateien (Zusammenfassung, Umleitung)

Text aus einer Datei zusammenfassen:
```
ollama run llama3.2 "Fasse den Inhalt dieser Datei in 50 Wörtern zusammen." < input.txt
```
Dieser Befehl fasst den Inhalt von input.txt unter Verwendung des angegebenen Modells zusammen.
Modellantworten in eine Datei schreiben:
```
ollama run llama3.2 "Erzähl mir über erneuerbare Energien." > output.txt
```
Dieser Befehl speichert die Antwort des Modells in output.txt.

Ollama CLI Anwendungsfälle (Textgenerierung, Analyse)

Textgenerierung:

Zusammenfassen einer großen Textdatei:

ollama run llama3.2 "Fasse den folgenden Text zusammen:" < long-document.txt

Inhalt generieren:

ollama run llama3.2 "Schreibe einen kurzen Artikel über die Vorteile der Nutzung von KI im Gesundheitswesen." > article.txt

Spezifische Fragen beantworten:

ollama run llama3.2 "Was sind die neuesten Trends in der KI und wie werden sie das Gesundheitswesen beeinflussen?"

Datenverarbeitung und -analyse:
- Klassifizieren von Text in positive, negative oder neutrale Stimmung:
```
ollama run llama3.2 "Analysiere die Stimmung dieser Kundenbewertung: 'Das Produkt ist fantastisch, aber die Lieferung war langsam.'"
```
- Kategorisieren von Text in vordefinierte Kategorien: Verwenden Sie ähnliche Befehle, um Text basierend auf vordefinierten Kriterien zu klassifizieren oder zu kategorisieren.

Verwendung von Ollama mit Python (Client und API)

Ollama Python-Bibliothek installieren:
```
pip install ollama
```

Text mit Python generieren:

import ollama

response = ollama.generate(model='gemma:2b', prompt='was ist ein Qubit?')
print(response['response'])

Dieser Code-Snippet generiert Text unter Verwendung des angegebenen Modells und Prompts.

Für fortgeschrittene Python-Integrationen, erkunden Sie die Verwendung von Ollama’s Web Search API in Python, die Web-Suchfunktionen, Tool-Calling und MCP-Server-Integration abdeckt. Wenn Sie KI-gestützte Anwendungen entwickeln, kann unser Vergleich von KI-Coding-Assistenten Ihnen helfen, die richtigen Tools für die Entwicklung zu wählen.

Suchen Sie nach einer webbasierten Schnittstelle? Open WebUI bietet eine selbst gehostete Schnittstelle mit RAG-Funktionen und Multi-User-Unterstützung. Für hochleistungsfähige Produktivbereitstellungen, betrachten Sie vLLM als Alternative. Um Ollama mit anderen lokalen und Cloud-LLM-Infrastruktur-Optionen zu vergleichen, sehen Sie LLM Hosting: Lokale, selbst gehostete und Cloud-Infrastruktur im Vergleich.

Ollama CLI-Referenz: ls, serve, run, ps und weitere Befehle (Update 2026)

Ollama-Installation (Download und CLI-Installation)

Ollama-Systemanforderungen (RAM, Speicher, CPU)

Grundlegende Ollama CLI-Befehle

Ollama CLI (was es ist)

Ollama-Modellverwaltung: pull und list Modellbefehle

Ollama show Befehl

Ollama serve Befehl

Ollama run Befehl

Ollama run Befehlsbeispiele

Ollama run Flags (vollständige Referenz)

Modellparameter ohne Modelfile überschreiben (-p / –parameters)

Mehrzeilige Eingabe in der REPL

Multimodale Modelle (Bilder)

Generieren von Einbettungen über die CLI

Erzwingen von JSON-Ausgabe (–format)

Ollama stop Befehl

Ollama ps Befehl

Ollama launch Befehl (KI-Coding-Integrationen)

Warum ollama launch verwenden?

Unterstützte Integrationen

Grundlegende Verwendung

Empfohlene Modelle

Beispiel: Lokales Ausführen von Claude Code mit Ollama

Leistungseinstellungen (`OLLAMA_NUM_PARALLEL`)

Freigabe von Ollama-Modell aus VRAM (keep_alive)

Anpassen von Ollama-Modellen (System-Prompt, Modelfile)

Verwendung des Ollama run Befehls mit Dateien (Zusammenfassung, Umleitung)

Ollama CLI Anwendungsfälle (Textgenerierung, Analyse)

Verwendung von Ollama mit Python (Client und API)

Nützliche Links

Konfiguration und Verwaltung

Alternativen und Vergleiche

Leistung und Hardware

Integration und Entwicklung

Ollama-Installation (Download und CLI-Installation)

Ollama-Systemanforderungen (RAM, Speicher, CPU)

Grundlegende Ollama CLI-Befehle

Ollama CLI (was es ist)

Ollama-Modellverwaltung: pull und list Modellbefehle

Ollama show Befehl

Ollama serve Befehl

Ollama run Befehl

Ollama run Befehlsbeispiele

Ollama run Flags (vollständige Referenz)

Modellparameter ohne Modelfile überschreiben (-p / –parameters)

Mehrzeilige Eingabe in der REPL

Multimodale Modelle (Bilder)

Generieren von Einbettungen über die CLI

Erzwingen von JSON-Ausgabe (–format)

Ollama stop Befehl

Ollama ps Befehl

Ollama launch Befehl (KI-Coding-Integrationen)

Warum ollama launch verwenden?

Unterstützte Integrationen

Grundlegende Verwendung

Empfohlene Modelle

Beispiel: Lokales Ausführen von Claude Code mit Ollama

Leistungseinstellungen (OLLAMA_NUM_PARALLEL)

Freigabe von Ollama-Modell aus VRAM (keep_alive)

Anpassen von Ollama-Modellen (System-Prompt, Modelfile)

Ollama signin und signout (Registry-Authentifizierung)

Verwendung des Ollama run Befehls mit Dateien (Zusammenfassung, Umleitung)

Ollama CLI Anwendungsfälle (Textgenerierung, Analyse)

Verwendung von Ollama mit Python (Client und API)

Nützliche Links

Konfiguration und Verwaltung

Alternativen und Vergleiche

Leistung und Hardware

Integration und Entwicklung

Abonnieren

Leistungseinstellungen (`OLLAMA_NUM_PARALLEL`)