Ollama CLI Cheatsheet: ls, serve, run, ps + Befehle (2026-Update)
Aktualisierte Ollama-Befehlsliste - ls, ps, run, serve, usw.
Dieses Ollama CLI Cheatsheet konzentriert sich auf die Befehle, die Sie täglich verwenden (ollama ls, ollama serve, ollama run, ollama ps, Modellverwaltung und gängige Workflows), mit Beispielen, die Sie kopieren und einfügen können.
Es enthält auch einen kurzen Abschnitt zu „Leistungsreglern“, um Ihnen zu helfen, OLLAMA_NUM_PARALLEL und verwandte Einstellungen zu entdecken (und dann tiefer einzutauchen).

Dieses Ollama-Cheatsheet konzentriert sich auf CLI-Befehle, Modellverwaltung und Anpassung, Aber wir haben hier auch einige curl Aufrufe.
Für ein vollständiges Bild davon, wo Ollama unter lokalen, selbstgehosteten und Cloud-Optionen passt – einschließlich vLLM, Docker Model Runner, LocalAI und Cloud-Anbieter – siehe LLM-Hosting: Lokal, Selbstgehostet & Cloud-Infrastruktur im Vergleich. Wenn Sie verschiedene lokale LLM-Hosting-Lösungen vergleichen, schauen Sie sich unseren umfassenden Vergleich von Ollama, vLLM, LocalAI, Jan, LM Studio und mehr. Für diejenigen, die Alternativen zu Befehlszeilen-Schnittstellen suchen, bietet Docker Model Runner einen anderen Ansatz zur LLM-Implementierung.
Ollama-Installation (Herunterladen und CLI-Installation)
- Option 1: Herunterladen von der Website
- Besuchen Sie ollama.com und laden Sie den Installer für Ihr Betriebssystem (Mac, Linux oder Windows) herunter.
- Option 2: Installation über die Befehlszeile
- Für Mac- und Linux-Nutzer verwenden Sie den Befehl:
curl -fsSL https://ollama.com/install.sh | sh
- Folgen Sie den Anweisungen auf dem Bildschirm und geben Sie Ihr Passwort ein, wenn Sie aufgefordert werden.
Ollama-Systemanforderungen (RAM, Speicher, CPU)
- Betriebssystem: Mac, Linux oder Windows
- Speicher (RAM): Mindestens 8 GB, 16 GB oder mehr empfohlen
- Speicher: Mindestens ~10 GB freier Speicher (Modelldateien können wirklich groß sein, siehe hier mehr Ollama-Modelle auf einen anderen Datenträger verschieben )
- Prozessor: Ein relativ moderner CPU (aus den letzten 5 Jahren). Wenn Sie neugierig sind, wie Ollama verschiedene CPU-Architekturen nutzt, sehen Sie sich unsere Analyse von wie Ollama Intel-CPU-Performance und effiziente Kerne verwendet.
Für ernsthafte AI-Aufgaben möchten Sie möglicherweise Hardware-Optionen vergleichen. Wir haben Benchmarks von NVIDIA DGX Spark vs Mac Studio vs RTX-4080 Leistung mit Ollama, und wenn Sie in Hochleistungs-Hardware investieren, bietet unser DGX Spark Preise und Fähigkeiten Vergleich detaillierte Kostenanalyse.
Grundlegende Ollama-CLI-Befehle
| Befehl | Beschreibung |
|---|---|
ollama serve |
Startet den Ollama-Server (Standardport 11434). |
ollama run <model> |
Führt das angegebene Modell in einer interaktiven REPL aus. |
ollama pull <model> |
Lädt das angegebene Modell auf Ihr System herunter. |
ollama push <model> |
Lädt ein Modell auf das Ollama-Register hoch. |
ollama list |
Listet alle heruntergeladenen Modelle auf. Das gleiche wie ollama ls. |
ollama ps |
Zeigt derzeit laufende (geladene) Modelle an. |
ollama stop <model> |
Stoppt (entlädt) ein laufendes Modell. |
ollama rm <model> |
Entfernt ein Modell von Ihrem System. |
ollama cp <source> <dest> |
Kopiert ein Modell unter einem neuen Namen lokal. |
ollama show <model> |
Zeigt Details zu einem Modell an (Architektur, Parameter, Vorlage, usw.). |
ollama create <model> |
Erstellt ein neues Modell aus einer Modelfile. |
ollama launch [integration] |
Null-Konfigurations-Start von AI-Codierungsassistenten (Claude Code, Codex, Droid, OpenCode). |
ollama signin |
Authentifiziert sich mit dem Ollama-Register (erlaubt private Modelle und Cloud-Modelle). |
ollama signout |
Meldet sich vom Ollama-Register ab. |
ollama help |
Bietet Hilfe zu jedem Befehl. |
Sprungverknüpfungen: Ollama serve Befehl · Ollama launch Befehl · Ollama run Befehl · Ollama run Flags · Ollama ps Befehl · Ollama show Befehl · Ollama signin · Ollama CLI Grundlagen · Leistungsregler (OLLAMA_NUM_PARALLEL) · Parallel requests deep dive
Ollama CLI (was es ist)
Ollama CLI ist die Befehlszeilenschnittstelle, um Modelle zu verwalten und sie lokal zu starten/zu betreiben. Die meisten Workflows reduzieren sich auf:
- Server starten:
ollama serve - Ein Modell ausführen:
ollama run <model> - Sehen, was geladen/läuft:
ollama ps - Modelle verwalten:
ollama pull,ollama list,ollama rm
Ollama-Modellverwaltung: pull und list Modelle-Befehle
Modelle auflisten:
ollama list
das gleiche wie:
ollama ls
Dieser Befehl listet alle Modelle auf, die auf Ihr System heruntergeladen wurden, mit ihren Dateigrößen auf Ihrem hdd/sdd, wie
$ ollama ls
NAME ID SIZE MODIFIED
deepseek-r1:8b 6995872bfe4c 5.2 GB 2 weeks ago
gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 weeks ago
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 weeks ago
dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 weeks ago
dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 weeks ago
qwen3:8b 500a1f067a9f 5.2 GB 5 weeks ago
qwen3:14b bdbd181c33f2 9.3 GB 5 weeks ago
qwen3:30b-a3b 0b28110b7a33 18 GB 5 weeks ago
devstral:24b c4b2fa0c33d7 14 GB 5 weeks ago
Ein Modell herunterladen: ollama pull
ollama pull mistral-nemo:12b-instruct-2407-q6_K
Dieser Befehl lädt das angegebene Modell (z. B. Gemma 2B, oder mistral-nemo:12b-instruct-2407-q6_K) auf Ihr System herunter. Die Modelldateien können sehr groß sein, also achten Sie darauf, den Speicher, den die Modelle auf der Festplatte oder SSD belegen, zu überwachen. Sie könnten sogar alle Ollama-Modelle von Ihrem Heimverzeichnis auf einen größeren und besseren Datenträger verschieben: Ollama-Modelle auf einen anderen Datenträger verschieben
Ein Modell hochladen: ollama push
ollama push my-custom-model
Lädt ein lokales Modell auf das Ollama-Register, damit andere es herunterladen können.
Sie müssen sich zunächst anmelden (ollama signin), und der Modellname muss mit Ihrem Ollama-Benutzernamen vorgestellt werden, z. B. myuser/my-model.
Verwenden Sie --insecure, wenn Sie ein Modell auf ein privates Register über HTTP pushen:
ollama push myuser/my-model --insecure
Ein Modell kopieren: ollama cp
ollama cp llama3.2 my-llama3-variant
Erstellt eine lokale Kopie eines Modells unter einem neuen Namen, ohne etwas erneut herunterzuladen. Das ist nützlich, bevor Sie eine Modelfile bearbeiten – kopieren Sie zuerst, personalisieren Sie die Kopie und lassen Sie das Original unverändert:
ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile
Ollama show Befehl
ollama show druckt Informationen über ein heruntergeladenes Modell aus.
ollama show qwen3:14b
Standardmäßig druckt es das Modellkarte (Architektur, Kontextlänge, Einbettungslänge, Quantisierung, usw.). Es gibt drei nützliche Flags:
| Flag | Was es anzeigt |
|---|---|
--modelfile |
Die vollständige Modelfile, die zum Erstellen des Modells verwendet wurde (VON, SYSTEM, VORLAGE, PARAMETER Zeilen) |
--parameters |
Nur der Parameterblock (z. B. num_ctx, temperature, stop Tokens) |
--verbose |
Erweiterte Metadaten einschließlich Tensorformen und Schichtzahlen |
# Sehen Sie genau, welcher Systemprompt und Vorlage ein Modell mit gebaut wurde
ollama show deepseek-r1:8b --modelfile
# Prüfen Sie die Kontextfenstergröße und andere Inferenzparameter
ollama show qwen3:14b --parameters
# Vollständige Tensor-Details (nützlich beim Debuggen der Quantisierung)
ollama show llama3.2 --verbose
Die Ausgabe von --modelfile ist besonders nützlich, bevor Sie ein Modell anpassen: Sie können die Basis-Modelfile kopieren und von dort aus bearbeiten, anstatt eine neue zu schreiben.
Ollama serve Befehl
ollama serve startet den lokalen Ollama-Server (Standard-HTTP-Port 11434).
ollama serve
“ollama serve” Befehl (systemd-freundliches Beispiel):
# setzen Sie Umgebungsvariablen, dann starten Sie den Server
# machen Sie Ollama auf der Host-IP-Adresse verfügbar
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve
Ollama run Befehl
Ein Modell ausführen:
ollama run gpt-oss:20b
Dieser Befehl startet das angegebene Modell und öffnet eine interaktive REPL für die Interaktion. Möchten Sie verstehen, wie Ollama mehrere parallele Anfragen verwaltet? Lernen Sie mehr über wie Ollama parallelle Anfragen verarbeitet in unserer detaillierten Analyse.
ollama run führt ein Modell in einer interaktiven Sitzung aus,
also bei gpt-oss:120b würden Sie etwas wie sehen:
$ ollama run gpt-oss:120b
>>> Senden Sie eine Nachricht (/? für Hilfe)
Sie können Ihre Fragen oder Befehle eingeben und das Modell wird antworten.
>>> wer sind Sie?
Nachdenken...
Der Nutzer fragt „wer sind Sie?“ Einfache Frage. Sollte als ChatGPT, ein KI-Sprachmodell, trainiert von OpenAI,
usw. Kurze Einführung geben. Wahrscheinlich fragen, ob sie Hilfe benötigen.
...fertig Nachdenken.
Ich bin ChatGPT, ein KI-Sprachmodell, erstellt von OpenAI. Ich wurde auf einer breiten Palette von Texten trainiert, damit ich helfen
Antworten auf Fragen, Ideen entwickeln, Konzepte erklären, Schreiben verfassen, Probleme beheben und vieles mehr. Denken
an mich als vielseitigen virtuellen Assistenten – hier, um Informationen, Unterstützung und Gespräche bereitzustellen, wann immer Sie sie benötigen. Wie kann ich Ihnen heute helfen?
>>> Senden Sie eine Nachricht (/? für Hilfe)
Um die interaktive ollama-Sitzung zu verlassen, drücken Sie Ctrl+D, oder Sie können /bye eingeben, das gleiche Ergebnis:
>>> /bye
$
Ollama run Befehl Beispiele
Um ein Modell zu starten und eine einzelne Frage in einer nicht interaktiven Modus zu stellen:
printf "Geben Sie mir 10 bash-Einzeiler für Log-Analyse.\n" | ollama run llama3.2
Wenn Sie detaillierte LLM-Antwort in der ollama-Sitzung sehen möchten – führen Sie das Modell mit --verbose oder -v Parameter aus:
$ ollama run gpt-oss:20b --verbose
>>> wer sind Sie?
Nachdenken...
Wir müssen auf eine einfache Frage antworten: „wer sind Sie?“ Der Nutzer fragt „wer sind Sie?“ Wir können antworten, dass wir
sind ChatGPT, ein großes Sprachmodell, trainiert von OpenAI. Wir können auch Fähigkeiten erwähnen. Der Nutzer erwartet wahrscheinlich
eine kurze Einführung. Wir werden es freundlich halten.
...fertig Nachdenken.
Ich bin ChatGPT, ein großes Sprachmodell, erstellt von OpenAI. Ich bin hier, um Fragen zu beantworten, Erklärungen zu geben,
Ideen zu entwickeln und über eine Vielzahl von Themen zu sprechen – von Wissenschaft und Geschichte bis zu kreativem Schreiben
und alltäglichen Ratschlägen. Sag einfach, über was du sprechen möchtest!
Gesamte Dauer: 1,118585707s
Ladendauer: 106,690543ms
Prompt-Bewertungszahl: 71 Token
Prompt-Bewertungsdauer: 30,507392ms
Prompt-Bewertungsgeschwindigkeit: 2327,30 Token/s
Bewertungszahl: 132 Token
Bewertungsdauer: 945,801569ms
Bewertungsgeschwindigkeit: 139,56 Token/s
>>> /bye
$
Ja, das ist richtig, es sind 139 Token pro Sekunde. Der gpt-oss:20b ist sehr schnell. Wenn Sie, wie ich, eine GPU mit 16 GB VRAM haben – sehen Sie die LLM-Geschwindigkeit-Vergleichsdetails in Beste LLMs für Ollama auf 16 GB VRAM GPU.
Tipp: Wenn Sie das Modell über HTTP für mehrere Anwendungen verfügbar machen möchten, starten Sie den Server mit ollama serve und verwenden Sie den API-Client anstelle langer interaktiver Sitzungen.
Ollama run Flags (vollständiger Verweis)
| Flag | Beschreibung |
|---|---|
--verbose / -v |
Zeigt Timing-Statistiken (Token/s, Ladezeit, etc.) nach jeder Antwort an |
-p, --parameters |
Übergeben Sie Modellparameter inline ohne eine Modelfile (siehe unten) |
--format string |
Erzwingen Sie ein bestimmtes Ausgabeformat, z. B. json |
--nowordwrap |
Deaktivieren Sie die automatische Wortumbruch — nützlich, wenn Sie Ausgaben an Skripte weiterleiten |
--insecure |
Ermöglicht das Verbinden mit einem Register über HTTP (für private/self-hosted Registrierungen) |
Modellparameter überschreiben ohne Modelfile (-p / –parameters)
Das -p-Flag ermöglicht es Ihnen, Inferenzparameter zur Laufzeit ohne eine Modelfile zu ändern.
Sie können mehrere -p-Flags stapeln:
# Erhöhen Sie das Kontextfenster und senken Sie die Temperatur
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5
# Führen Sie eine Codierungsaufgabe mit deterministischem Ausgang durch
ollama run devstral:24b -p temperature=0 -p num_ctx=65536
Gängige Parameter, die Sie so festlegen können:
| Parameter | Effekt |
|---|---|
num_ctx |
Kontextfenstergröße in Token (Standard ist modellabhängig, oft 2048–4096) |
temperature |
Zufälligkeit: 0 = deterministisch, 1 = kreativ |
top_p |
Nukleus-Sampling-Threshold |
top_k |
Begrenzt das Vokabular auf die Top-K-Token |
num_predict |
Maximale Token, die generiert werden (-1 = unbegrenzt) |
repeat_penalty |
Strafe für wiederholte Token |
Mehrzeilige Eingabe in der REPL
Um Text in Dreifachanführungszeichen ("\"\"\") zu umschließen, können Sie einen mehrzeiligen Prompt eingeben, ohne ihn frühzeitig zu senden:
>>> """Zusammenfassen Sie dies in einem Satz:
... Der schnelle braune Fuchs springt über den faulen Hund.
... Es geschah an einem Dienstag.
... """
Multimodell-Modelle (Bilder)
Für visionfähige Modelle (z. B. gemma3, llava), geben Sie den Bildpfad direkt im Prompt an:
ollama run gemma3 "Was ist in diesem Bild? /home/user/screenshot.png"
Embedding-Generierung über CLI
Embedding-Modelle geben ein JSON-Array anstelle von Text aus. Richten Sie Text direkt für schnelle Einmal-Embeddings ein:
echo "Hallo Welt" | ollama run nomic-embed-text
Für Produktions-Embedding-Arbeitslasten verwenden Sie stattdessen die /api/embeddings REST-Endpunkt oder den Python-Client.
JSON-Ausgabe erzwingen (–format)
ollama run llama3.2 --format json "Listen Sie 5 Hauptstädte als JSON auf"
Das Modell wird angewiesen, gültiges JSON zurückzugeben. Nützlich, wenn Sie die Ausgabe an jq oder ein Skript weiterleiten, das strukturierte Daten erwartet.
Ollama stop Befehl
Dieser Befehl stoppt das angegebene laufende Modell.
ollama stop llama3.1:8b-instruct-q8_0
Ollama entlädt Modelle automatisch nach einiger Zeit.
Sie können diese Zeit angeben, der Standardwert ist 4 Minuten.
Wenn Sie nicht warten möchten, bis die verbleibende Zeit abgelaufen ist, möchten Sie möglicherweise diesen ollama stop-Befehl verwenden.
Sie können auch das Modell aus dem VRAM verdrängen, indem Sie den /generate-API-Endpunkt mit dem Parameter keep_alive=0 aufrufen, siehe unten für die Beschreibung und das Beispiel.
Ollama ps Befehl
ollama ps zeigt derzeit laufende Modelle und Sitzungen an (nützlich, um „warum ist mein VRAM voll?“ zu debuggen).
ollama ps
Ein Beispiel für die Ausgabe von ollama ps ist unten:
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b 17052f91a42e 14 GB 100% GPU 4096 4 Minuten von jetzt an
Hier sehen Sie auf meinem PC, dass gpt-oss:20b sehr gut in meine GPU mit 16 GB VRAM passt und nur 14 GB belegt.
Wenn ich ollama run gpt-oss:120b ausführe und dann ollama ps aufrufe, wird das Ergebnis nicht so gut sein:
78 % der Schichten sind auf der CPU, und das ist nur mit dem Kontextfenster 4096 Token. Es wird schlimmer, wenn ich den Kontext erhöhen muss.
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b a951a23b46a1 66 GB 78%/22% CPU/GPU 4096 4 Minuten von jetzt an
Ollama launch Befehl (AI-Codierungsintegrationen)
ollama launch ist ein Befehl, der in Ollama v0.15 (Januar 2026) eingeführt wurde, der Ihnen eine null-Konfigurations-, einzeilige Einrichtung für beliebte AI-Codierungsassistenten bietet, die gegen Ihren lokalen Ollama-Server laufen.
Warum ollama launch verwenden?
Bevor ollama launch, das Verkabeln eines Codierungsagents wie Claude Code oder Codex mit einem lokalen Ollama-Backend bedeutete, manuell Umgebungsvariablen zu setzen, den Tool auf den richtigen API-Endpunkt zu zeigen und ein kompatibles Modell auszuwählen. ollama launch kümmert sich für Sie interaktiv um alles.
Wenn Sie bereits lokal Ollama laufen und einen agentenbasierten Codierungsassistenten ohne API-Aufrufe oder Code an die Cloud zu senden möchten, ist ollama launch der schnellste Weg dorthin.
Unterstützte Integrationen
| Integration | Was es ist |
|---|---|
claude |
Anthropics Claude Code — agenterbasierter Codierungsassistent |
codex |
OpenAIs Codex CLI-Codierungsassistent |
droid |
Factorys AI-Codierungsagent |
opencode |
Open-Source-Codierungsassistent |
Grundlegende Verwendung
# Interaktiver Picker — wählen Sie eine Integration aus einem Menü aus
ollama launch
# Starten Sie eine bestimmte Integration direkt
ollama launch claude
# Starten Sie mit einem bestimmten Modell
ollama launch claude --model qwen3-coder
# Konfigurieren Sie die Integration ohne sie zu starten (nützlich, um Einstellungen zu inspizieren)
ollama launch droid --config
Empfohlene Modelle
Codierungsagenten benötigen ein langes Kontextfenster, um ganze Dateikontexte und mehrere Gesprächsgeschichten zu halten. Ollama empfiehlt Modelle mit mindestens 64 000 Token Kontext:
| Modell | Notizen |
|---|---|
qwen3-coder |
Starke Codierungsleistung, langer Kontext, läuft lokal |
glm-4.7-flash |
Schnelle lokale Option |
devstral:24b |
Mistral-fokussiertes Codierungsmodell |
Wenn Ihre GPU das Modell nicht aufnehmen kann, bietet Ollama auch Cloud-hostete Varianten (z. B. qwen3-coder:480b-cloud), die sich auf die gleiche Weise integrieren, aber die Inferenz an die Ollama-Cloudschicht routen — dies erfordert ollama signin.
Beispiel: Lokales Laufen von Claude Code mit Ollama
# 1. Stellen Sie sicher, dass das Modell verfügbar ist
ollama pull qwen3-coder
# 2. Starten Sie Claude Code gegen es
ollama launch claude --model qwen3-coder
Ollama setzt die notwendigen Umgebungsvariablen und startet Claude Code automatisch, wobei auf http://localhost:11434 gezeigt wird.
Sie können dann Claude Code genau so verwenden, wie Sie es normalerweise tun würden — der einzige Unterschied ist, dass die Inferenz auf Ihrer eigenen Hardware erfolgt.
Leistungsregler (OLLAMA_NUM_PARALLEL)
Wenn Sie unter Last Warteschlangen oder Timeout beobachten, ist der erste Regler, den Sie lernen sollten, OLLAMA_NUM_PARALLEL.
OLLAMA_NUM_PARALLEL= wie viele Anfragen Ollama parallel ausführt.- Ein höherer Wert kann die Durchsatzrate erhöhen, kann aber die VRAM-Druck und Latenzspitzen erhöhen.
Schnelles Beispiel:
OLLAMA_NUM_PARALLEL=2 ollama serve
Für eine vollständige Erklärung (einschließlich Abstimmungsstrategien und Fehlmodi), siehe:
Ollama-Modell aus VRAM freigeben (keep_alive)
Wenn ein Modell in die VRAM (GPU-Speicher) geladen wird, bleibt es dort, auch nachdem Sie mit ihm fertig sind. Um ein Modell explizit aus der VRAM zu freigeben und den GPU-Speicher zu befreien, können Sie eine Anfrage an die Ollama-API mit keep_alive: 0 senden.
- Modell aus VRAM freigeben mit curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Ersetzen Sie MODELNAME mit Ihrem tatsächlichen Modellnamen, z. B.:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Modell aus VRAM freigeben mit Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Dies ist besonders nützlich, wenn:
- Sie den GPU-Speicher für andere Anwendungen freigeben müssen
- Sie mehrere Modelle ausführen und die VRAM-Nutzung verwalten möchten
- Sie einen großen Modell verwendet haben und die Ressourcen sofort freigeben möchten
Hinweis: Der keep_alive-Parameter steuert, wie lange (in Sekunden) ein Modell im Speicher geladen bleibt, nachdem die letzte Anfrage erfolgt ist. Bei der Einstellung auf 0 wird das Modell sofort aus der VRAM entladen.
Anpassen von Ollama-Modellen (Systemprompt, Modelfile)
-
Systemprompt setzen: Innerhalb der Ollama REPL können Sie einen Systemprompt setzen, um das Verhalten des Modells anzupassen:
>>> /set system Für alle gestellten Fragen antworte in einfacher englischer Sprache und vermeide technische Fachbegriffe so weit wie möglich >>> /save ipe >>> /byeDanach können Sie das angepasste Modell ausführen:
ollama run ipeDies setzt einen Systemprompt und speichert das Modell für spätere Verwendung.
-
Benutzerdefinierte Modelldatei erstellen: Erstellen Sie eine Textdatei (z. B.
custom_model.txt) mit folgender Struktur:FROM llama3.1 SYSTEM [Ihre benutzerdefinierten Anweisungen hier]Danach führen Sie aus:
ollama create mymodel -f custom_model.txt ollama run mymodelDies erstellt ein benutzerdefiniertes Modell basierend auf den Anweisungen in der Datei".
Ollama anmelden und abmelden (Registrierungsauthentifizierung)
ollama signin
ollama signout
ollama signin authentifiziert Ihre lokale Ollama-Installation mit dem Ollama-Register auf ollama.com. Nachdem Sie sich angemeldet haben, speichert der Client die Anmeldeinformationen lokal und verwendet sie automatisch für nachfolgende Befehle.
Was anmelden ermöglicht:
- Private Modelle aus Ihrem Konto oder Ihrer Organisation herunterladen und hochladen.
- Cloud-hostete Modelle (z. B.
qwen3-coder:480b-cloud) verwenden, die zu groß sind, um lokal laufen zu können. - Modelle mit
ollama pushzum Register hochladen.
Alternative: API-Schlüssel-Authentifizierung
Wenn Sie Ollama in einer CI-Pipeline oder einem headless-Server ausführen, wo eine interaktive ollama signin nicht praktisch ist, erstellen Sie einen API-Schlüssel in Ihren Ollama-Konto-Einstellungen und geben Sie ihn als Umgebungsvariable an:
export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model
Die Variable OLLAMA_API_KEY wird automatisch von jedem Ollama-Befehl und API-Anfrage erkannt — es ist nicht notwendig, ollama signin auf jedem Rechner auszuführen.
Ollama run Befehl mit Dateien verwenden (zusammenfassen, umleiten)
-
Text aus einer Datei zusammenfassen:
ollama run llama3.2 "Zusammenfassen Sie den Inhalt dieser Datei in 50 Wörtern." < input.txtDieser Befehl fasst den Inhalt von
input.txtmit dem angegebenen Modell zusammen. -
Modellantworten in eine Datei umleiten:
ollama run llama3.2 "Erzählen Sie mir über erneuerbare Energien." > output.txtDieser Befehl speichert die Modellantwort in
output.txt.
Ollama CLI-Anwendungsfälle (Textgenerierung, Analyse)
-
Textgenerierung:
- Zusammenfassen eines großen Textdokuments:
ollama run llama3.2 "Zusammenfassen Sie den folgenden Text:" < long-document.txt - Inhalt generieren:
ollama run llama3.2 "Schreiben Sie einen kurzen Artikel über die Vorteile der Verwendung von KI in der Gesundheitsversorgung." > article.txt - Beantworten spezifischer Fragen:
ollama run llama3.2 "Was sind die neuesten Trends in der KI und wie werden sie die Gesundheitsversorgung beeinflussen?"
.
- Zusammenfassen eines großen Textdokuments:
-
Datenverarbeitung und -analyse:
- Klassifizieren Sie Text in positive, negative oder neutrale Stimmung:
ollama run llama3.2 "Analysieren Sie die Stimmung dieses Kundenbewertung: 'Das Produkt ist fantastisch, aber die Lieferung war langsam.'" - Kategorisieren Sie Text in vorgegebene Kategorien: Verwenden Sie ähnliche Befehle, um Text basierend auf vorgegebenen Kriterien zu klassifizieren oder kategorisieren.
- Klassifizieren Sie Text in positive, negative oder neutrale Stimmung:
Ollama mit Python verwenden (Client und API)
- Ollama Python-Bibliothek installieren:
pip install ollama - Text mit Python generieren:
Dieser Codeausschnitt generiert Text mit dem angegebenen Modell und Prompt.
import ollama response = ollama.generate(model='gemma:2b', prompt='Was ist ein Qubit?') print(response['response'])
Für fortgeschrittene Python-Integration, erkunden Sie die Verwendung der Web-Suche-API von Ollama in Python, die Web-Suche-Fähigkeiten, Tool-Aufruf und MCP-Server-Integration abdeckt. Wenn Sie Anwendungen mit KI-Power erstellen, kann uns Vergleich von AI-Codierungsassistenten dabei helfen, die richtigen Tools für die Entwicklung zu wählen.
Suchen Sie nach einer webbasierten Schnittstelle? Open WebUI bietet eine selbstgehostete Schnittstelle mit RAG-Fähigkeiten und Multi-User-Unterstützung. Für Hochleistungsproduktionsbereitstellungen, erwägen Sie vLLM als Alternative. Um Ollama mit anderen lokalen und Cloud-LLM-Infrastruktur-Optionen zu vergleichen, siehe LLM-Hosting: Lokal, Selbstgehostet & Cloud-Infrastruktur im Vergleich.
Nützliche Links
Konfiguration und Verwaltung
Alternativen und Vergleiche
- Lokales LLM-Hosting: Vollständiger 2026-Leitfaden - Ollama, vLLM, LocalAI, Jan, LM Studio & Mehr
- vLLM Quickstart: Hochleistungs-LLM-Server
- Docker Model Runner vs Ollama: Welche zu wählen?
- Erste Anzeichen von Ollama Enshittification
Leistung und Hardware
- Wie Ollama parallelle Anfragen verarbeitet
- Wie Ollama Intel-CPU-Performance und effiziente Kerne verwendet
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama Leistungsvergleich
- DGX Spark vs. Mac Studio: Eine praktische, preisgeprüfte Betrachtung von NVIDIAs persönlichen AI-Supercomputer
Integration und Entwicklung
- Verwenden der Ollama Web-Suche-API in Python
- Vergleich von AI-Codierungsassistenten
- Open WebUI: Selbstgehostete LLM-Schnittstelle
- Open-Source-Chat-UIs für LLMs auf lokalen Ollama-Instanzen
- LLMs mit strukturiertem Output beschränken: Ollama, Qwen3 & Python oder Go
- Ollama mit Python integrieren: REST-API und Python-Client-Beispiele
- Go-SDKs für Ollama - Vergleich mit Beispielen