Ollama Cheatsheet - die nützlichsten Befehle - Update 2026
Habe diese Ollama-Befehlsliste vor einiger Zeit zusammengestellt...
Hier ist die Liste und Beispiele der nützlichsten Ollama-Befehle (Ollama-Befehle-Cheat-Sheet), die ich vor einiger Zeit zusammengestellt habe, zuletzt aktualisiert im Januar 2026. Hoffentlich wird es Ihnen auch nützlich sein!

Dieses Ollama-Cheat-Sheet konzentriert sich auf CLI-Befehle, Modellverwaltung und Anpassung, enthält aber auch einige curl-Aufrufe.
Wenn Sie verschiedene lokale LLM-Hosting-Lösungen vergleichen, werfen Sie einen Blick auf unseren umfassenden Vergleich von Ollama, vLLM, LocalAI, Jan, LM Studio und mehr. Für diejenigen, die Alternativen zu Befehlszeilenschnittstellen suchen, bietet Docker Model Runner einen anderen Ansatz zur LLM-Bereitstellung.
Installation
- Option 1: Download von der Website
- Besuchen Sie ollama.com und laden Sie den Installer für Ihr Betriebssystem (Mac, Linux oder Windows) herunter.
- Option 2: Installation über die Befehlszeile
- Für Mac- und Linux-Nutzer verwenden Sie den Befehl:
curl https://ollama.ai/install.sh | sh
- Folgen Sie den Anweisungen auf dem Bildschirm und geben Sie Ihr Passwort ein, falls erforderlich.
Systemanforderungen
- Betriebssystem: Mac oder Linux (Windows-Version in Entwicklung)
- Speicher (RAM): 8GB Mindest, 16GB oder mehr empfohlen
- Speicherplatz: Mindestens ~10GB freier Speicherplatz (Modelldateien können wirklich groß sein, siehe hier mehr Ollama-Modelle auf eine andere Festplatte verschieben)
- Prozessor: Ein relativ moderner CPU (aus den letzten 5 Jahren). Wenn Sie neugierig sind, wie Ollama verschiedene CPU-Architekturen nutzt, sehen Sie unsere Analyse zu wie Ollama Intel CPU Performance und Efficient Cores nutzt)
Für ernsthafte KI-Workloads möchten Sie möglicherweise Hardware-Optionen vergleichen. Wir haben NVIDIA DGX Spark vs Mac Studio vs RTX-4080-Leistung mit Ollama benchmarkt, und wenn Sie in High-End-Hardware investieren möchten, bietet unser DGX Spark-Preis- und Leistungsvergleich eine detaillierte Kostenanalyse.
Grundlegende Ollama-CLI-Befehle
| Befehl | Beschreibung |
|---|---|
ollama serve |
Startet Ollama auf Ihrem lokalen System. |
ollama create <new_model> |
Erstellt ein neues Modell aus einem bestehenden für Anpassung oder Training. |
ollama show <model> |
Zeigt Details zu einem bestimmten Modell an, wie seine Konfiguration und das Veröffentlichungsdatum. |
ollama run <model> |
Führt das angegebene Modell aus und macht es für die Interaktion bereit. |
ollama pull <model> |
Lädt das angegebene Modell auf Ihr System herunter. |
ollama list |
Listet alle heruntergeladenen Modelle auf. Das Gleiche wie ollama ls |
ollama ps |
Zeigt die derzeit laufenden Modelle an. |
ollama stop <model> |
Stoppt das angegebene laufende Modell. |
ollama rm <model> |
Entfernt das angegebene Modell von Ihrem System. |
ollama help |
Bietet Hilfe zu jedem Befehl. |
Modellverwaltung
-
Ein Modell herunterladen:
ollama pull mistral-nemo:12b-instruct-2407-q6_KDieser Befehl lädt das angegebene Modell (z. B. Gemma 2B oder mistral-nemo:12b-instruct-2407-q6_K) auf Ihr System herunter. Die Modelldateien können recht groß sein, also behalten Sie den von den Modellen auf der Festplatte oder SSD genutzten Speicherplatz im Auge. Sie möchten möglicherweise alle Ollama-Modelle von Ihrem Home-Verzeichnis auf eine größere und bessere Festplatte verschieben
-
Ein Modell ausführen:
ollama run qwen2.5:32b-instruct-q3_K_SDieser Befehl startet das angegebene Modell und öffnet eine interaktive REPL für die Interaktion. Möchten Sie verstehen, wie Ollama mehrere parallele Anfragen verwaltet? Erfahren Sie mehr über wie Ollama parallele Anfragen verarbeitet in unserer detaillierten Analyse.
-
Modelle auflisten:
ollama listdas Gleiche wie:
ollama lsDieser Befehl listet alle Modelle auf, die auf Ihr System heruntergeladen wurden, wie z. B.
$ ollama ls NAME ID SIZE MODIFIED deepseek-r1:8b 6995872bfe4c 5.2 GB 2 weeks ago gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 weeks ago LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 weeks ago dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 weeks ago dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 weeks ago qwen3:8b 500a1f067a9f 5.2 GB 5 weeks ago qwen3:14b bdbd181c33f2 9.3 GB 5 weeks ago qwen3:30b-a3b 0b28110b7a33 18 GB 5 weeks ago devstral:24b c4b2fa0c33d7 14 GB 5 weeks ago -
Ein Modell stoppen:
ollama stop llama3.1:8b-instruct-q8_0Dieser Befehl stoppt das angegebene laufende Modell.
Modell aus VRAM freigeben
Wenn ein Modell in den VRAM (GPU-Speicher) geladen wird, bleibt es dort, auch nachdem Sie es nicht mehr verwenden. Um ein Modell explizit aus dem VRAM freizugeben und GPU-Speicher freizugeben, können Sie eine Anfrage an die Ollama-API mit keep_alive: 0 senden.
- Modell aus VRAM freigeben mit curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Ersetzen Sie MODELNAME durch den tatsächlichen Modellnamen, z. B.:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Modell aus VRAM freigeben mit Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Dies ist besonders nützlich, wenn:
- Sie GPU-Speicher für andere Anwendungen freigeben müssen
- Sie mehrere Modelle ausführen und den VRAM-Verbrauch verwalten möchten
- Sie mit einem großen Modell fertig sind und die Ressourcen sofort freigeben möchten
Hinweis: Der Parameter keep_alive steuert, wie lange (in Sekunden) ein Modell nach der letzten Anfrage im Speicher bleibt. Das Setzen auf 0 entlädt das Modell sofort aus dem VRAM.
Modelle anpassen
-
System-Prompt festlegen: Innerhalb der Ollama-REPL können Sie einen System-Prompt festlegen, um das Verhalten des Modells anzupassen:
>>> /set system Für alle gestellten Fragen antworten Sie in einfachem Englisch und vermeiden Sie technische Fachbegriffe so weit wie möglich >>> /save ipe >>> /byeFühren Sie dann das angepasste Modell aus:
ollama run ipeDies legt einen System-Prompt fest und speichert das Modell für die zukünftige Verwendung.
-
Benutzerdefinierte Modelldatei erstellen: Erstellen Sie eine Textdatei (z. B.
custom_model.txt) mit der folgenden Struktur:FROM llama3.1 SYSTEM [Ihre benutzerdefinierten Anweisungen hier]Führen Sie dann aus:
ollama create mymodel -f custom_model.txt ollama run mymodelDies erstellt ein benutzerdefiniertes Modell basierend auf den Anweisungen in der Datei.
Ollama mit Dateien verwenden
-
Text aus einer Datei zusammenfassen:
ollama run llama3.2 "Fassen Sie den Inhalt dieser Datei in 50 Wörtern zusammen." < input.txtDieser Befehl fasst den Inhalt von
input.txtmit dem angegebenen Modell zusammen. -
Modellantworten in eine Datei protokollieren:
ollama run llama3.2 "Erzählen Sie mir etwas über erneuerbare Energien." > output.txtDieser Befehl speichert die Antwort des Modells in
output.txt.
Häufige Anwendungsfälle
-
Texterzeugung:
- Zusammenfassung einer großen Textdatei:
ollama run llama3.2 "Fassen Sie den folgenden Text zusammen:" < long-document.txt - Inhaltserstellung:
ollama run llama3.2 "Schreiben Sie einen kurzen Artikel über die Vorteile der Nutzung von KI im Gesundheitswesen." > article.txt - Beantwortung spezifischer Fragen:
ollama run llama3.2 "Was sind die neuesten Trends in der KI und wie werden sie das Gesundheitswesen beeinflussen?"
- Zusammenfassung einer großen Textdatei:
-
Datenverarbeitung und -analyse:
- Klassifizierung von Text in positive, negative oder neutrale Stimmung:
ollama run llama3.2 "Analysieren Sie die Stimmung dieser Kundenbewertung: 'Das Produkt ist fantastisch, aber die Lieferung war langsam.'" - Kategorisierung von Text in vordefinierte Kategorien: Verwenden Sie ähnliche Befehle, um Text basierend auf vordefinierten Kriterien zu klassifizieren oder zu kategorisieren.
- Klassifizierung von Text in positive, negative oder neutrale Stimmung:
Verwendung von Ollama mit Python
- Installieren Sie die Ollama Python-Bibliothek:
pip install ollama - Generieren Sie Text mit Python:
Dieser Code-Ausschnitt generiert Text unter Verwendung des angegebenen Modells und der Eingabeaufforderung.
import ollama response = ollama.generate(model='gemma:2b', prompt='what is a qubit?') print(response['response'])
Für eine erweiterte Python-Integration erkunden Sie die Verwendung der Ollama-Web-Such-API in Python, die die Web-Suchfähigkeiten, Tool-Calling und die MCP-Server-Integration abdeckt. Wenn Sie AI-gestützte Anwendungen entwickeln, kann Ihnen unser Vergleich von AI-Coding-Assistenten helfen, die richtigen Tools für die Entwicklung auszuwählen.
Suchen Sie nach einer webbasierten Oberfläche? Open WebUI bietet eine selbstgehostete Oberfläche mit RAG-Funktionen und Multi-User-Unterstützung. Für Hochleistungs-Produktionsbereitstellungen sollten Sie vLLM als Alternative in Betracht ziehen.
Nützliche Links
Alternativen und Vergleiche
- Lokales LLM-Hosting: Vollständiger Leitfaden 2026 - Ollama, vLLM, LocalAI, Jan, LM Studio & mehr
- vLLM Quickstart: Hochleistungs-LLM-Serving
- Docker Model Runner vs. Ollama: Was wählen?
- Erste Anzeichen der Ollama-Enshittification
Leistung und Hardware
- Wie Ollama parallele Anfragen verarbeitet
- Wie Ollama die Intel-CPU-Leistung und effiziente Kerne nutzt
- NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Ollama-Leistungsvergleich
- DGX Spark vs. Mac Studio: Ein praktischer, preisgeprüfter Blick auf NVIDIAs persönlichen KI-Supercomputer
Integration und Entwicklung
- Verwendung der Ollama-Web-Such-API in Python
- Vergleich von AI-Coding-Assistenten
- Open WebUI: Selbstgehostete LLM-Oberfläche
- Open-Source-Chat-Oberflächen für LLMs auf lokalen Ollama-Instanzen
- Einschränkung von LLMs mit strukturierter Ausgabe: Ollama, Qwen3 & Python oder Go
- Integration von Ollama mit Python: REST-API- und Python-Client-Beispiele
- Go-SDKs für Ollama - Vergleich mit Beispielen