Ollama CLI Cheatsheet: ls, serve, run, ps + Befehle (2026-Update)

Aktualisierte Ollama-Befehlsliste - ls, ps, run, serve, usw.

Inhaltsverzeichnis

Dieses Ollama CLI Cheatsheet konzentriert sich auf die Befehle, die Sie täglich verwenden (ollama ls, ollama serve, ollama run, ollama ps, Modellverwaltung und gängige Workflows), mit Beispielen, die Sie kopieren und einfügen können.

Es enthält auch einen kurzen Abschnitt zu „Leistungsreglern“, um Ihnen zu helfen, OLLAMA_NUM_PARALLEL und verwandte Einstellungen zu entdecken (und dann tiefer einzutauchen).

ollama cheatsheet

Dieses Ollama-Cheatsheet konzentriert sich auf CLI-Befehle, Modellverwaltung und Anpassung, Aber wir haben hier auch einige curl Aufrufe.

Für ein vollständiges Bild davon, wo Ollama unter lokalen, selbstgehosteten und Cloud-Optionen passt – einschließlich vLLM, Docker Model Runner, LocalAI und Cloud-Anbieter – siehe LLM-Hosting: Lokal, Selbstgehostet & Cloud-Infrastruktur im Vergleich. Wenn Sie verschiedene lokale LLM-Hosting-Lösungen vergleichen, schauen Sie sich unseren umfassenden Vergleich von Ollama, vLLM, LocalAI, Jan, LM Studio und mehr. Für diejenigen, die Alternativen zu Befehlszeilen-Schnittstellen suchen, bietet Docker Model Runner einen anderen Ansatz zur LLM-Implementierung.

Ollama-Installation (Herunterladen und CLI-Installation)

  • Option 1: Herunterladen von der Website
    • Besuchen Sie ollama.com und laden Sie den Installer für Ihr Betriebssystem (Mac, Linux oder Windows) herunter.
  • Option 2: Installation über die Befehlszeile
    • Für Mac- und Linux-Nutzer verwenden Sie den Befehl:
curl -fsSL https://ollama.com/install.sh | sh
  • Folgen Sie den Anweisungen auf dem Bildschirm und geben Sie Ihr Passwort ein, wenn Sie aufgefordert werden.

Ollama-Systemanforderungen (RAM, Speicher, CPU)

Für ernsthafte AI-Aufgaben möchten Sie möglicherweise Hardware-Optionen vergleichen. Wir haben Benchmarks von NVIDIA DGX Spark vs Mac Studio vs RTX-4080 Leistung mit Ollama, und wenn Sie in Hochleistungs-Hardware investieren, bietet unser DGX Spark Preise und Fähigkeiten Vergleich detaillierte Kostenanalyse.

Grundlegende Ollama-CLI-Befehle

Befehl Beschreibung
ollama serve Startet den Ollama-Server (Standardport 11434).
ollama run <model> Führt das angegebene Modell in einer interaktiven REPL aus.
ollama pull <model> Lädt das angegebene Modell auf Ihr System herunter.
ollama push <model> Lädt ein Modell auf das Ollama-Register hoch.
ollama list Listet alle heruntergeladenen Modelle auf. Das gleiche wie ollama ls.
ollama ps Zeigt derzeit laufende (geladene) Modelle an.
ollama stop <model> Stoppt (entlädt) ein laufendes Modell.
ollama rm <model> Entfernt ein Modell von Ihrem System.
ollama cp <source> <dest> Kopiert ein Modell unter einem neuen Namen lokal.
ollama show <model> Zeigt Details zu einem Modell an (Architektur, Parameter, Vorlage, usw.).
ollama create <model> Erstellt ein neues Modell aus einer Modelfile.
ollama launch [integration] Null-Konfigurations-Start von AI-Codierungsassistenten (Claude Code, Codex, Droid, OpenCode).
ollama signin Authentifiziert sich mit dem Ollama-Register (erlaubt private Modelle und Cloud-Modelle).
ollama signout Meldet sich vom Ollama-Register ab.
ollama help Bietet Hilfe zu jedem Befehl.

Sprungverknüpfungen: Ollama serve Befehl · Ollama launch Befehl · Ollama run Befehl · Ollama run Flags · Ollama ps Befehl · Ollama show Befehl · Ollama signin · Ollama CLI Grundlagen · Leistungsregler (OLLAMA_NUM_PARALLEL) · Parallel requests deep dive

Ollama CLI (was es ist)

Ollama CLI ist die Befehlszeilenschnittstelle, um Modelle zu verwalten und sie lokal zu starten/zu betreiben. Die meisten Workflows reduzieren sich auf:

  • Server starten: ollama serve
  • Ein Modell ausführen: ollama run <model>
  • Sehen, was geladen/läuft: ollama ps
  • Modelle verwalten: ollama pull, ollama list, ollama rm

Ollama-Modellverwaltung: pull und list Modelle-Befehle

Modelle auflisten:

ollama list

das gleiche wie:

ollama ls

Dieser Befehl listet alle Modelle auf, die auf Ihr System heruntergeladen wurden, mit ihren Dateigrößen auf Ihrem hdd/sdd, wie

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 weeks ago     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 weeks ago     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 weeks ago     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 weeks ago     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 weeks ago     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 weeks ago     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 weeks ago     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 weeks ago     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 weeks ago  

Ein Modell herunterladen: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

Dieser Befehl lädt das angegebene Modell (z. B. Gemma 2B, oder mistral-nemo:12b-instruct-2407-q6_K) auf Ihr System herunter. Die Modelldateien können sehr groß sein, also achten Sie darauf, den Speicher, den die Modelle auf der Festplatte oder SSD belegen, zu überwachen. Sie könnten sogar alle Ollama-Modelle von Ihrem Heimverzeichnis auf einen größeren und besseren Datenträger verschieben: Ollama-Modelle auf einen anderen Datenträger verschieben

Ein Modell hochladen: ollama push

ollama push my-custom-model

Lädt ein lokales Modell auf das Ollama-Register, damit andere es herunterladen können. Sie müssen sich zunächst anmelden (ollama signin), und der Modellname muss mit Ihrem Ollama-Benutzernamen vorgestellt werden, z. B. myuser/my-model. Verwenden Sie --insecure, wenn Sie ein Modell auf ein privates Register über HTTP pushen:

ollama push myuser/my-model --insecure

Ein Modell kopieren: ollama cp

ollama cp llama3.2 my-llama3-variant

Erstellt eine lokale Kopie eines Modells unter einem neuen Namen, ohne etwas erneut herunterzuladen. Das ist nützlich, bevor Sie eine Modelfile bearbeiten – kopieren Sie zuerst, personalisieren Sie die Kopie und lassen Sie das Original unverändert:

ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile

Ollama show Befehl

ollama show druckt Informationen über ein heruntergeladenes Modell aus.

ollama show qwen3:14b

Standardmäßig druckt es das Modellkarte (Architektur, Kontextlänge, Einbettungslänge, Quantisierung, usw.). Es gibt drei nützliche Flags:

Flag Was es anzeigt
--modelfile Die vollständige Modelfile, die zum Erstellen des Modells verwendet wurde (VON, SYSTEM, VORLAGE, PARAMETER Zeilen)
--parameters Nur der Parameterblock (z. B. num_ctx, temperature, stop Tokens)
--verbose Erweiterte Metadaten einschließlich Tensorformen und Schichtzahlen
# Sehen Sie genau, welcher Systemprompt und Vorlage ein Modell mit gebaut wurde
ollama show deepseek-r1:8b --modelfile

# Prüfen Sie die Kontextfenstergröße und andere Inferenzparameter
ollama show qwen3:14b --parameters

# Vollständige Tensor-Details (nützlich beim Debuggen der Quantisierung)
ollama show llama3.2 --verbose

Die Ausgabe von --modelfile ist besonders nützlich, bevor Sie ein Modell anpassen: Sie können die Basis-Modelfile kopieren und von dort aus bearbeiten, anstatt eine neue zu schreiben.

Ollama serve Befehl

ollama serve startet den lokalen Ollama-Server (Standard-HTTP-Port 11434).

ollama serve

“ollama serve” Befehl (systemd-freundliches Beispiel):

# setzen Sie Umgebungsvariablen, dann starten Sie den Server
# machen Sie Ollama auf der Host-IP-Adresse verfügbar
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Ollama run Befehl

Ein Modell ausführen:

ollama run gpt-oss:20b

Dieser Befehl startet das angegebene Modell und öffnet eine interaktive REPL für die Interaktion. Möchten Sie verstehen, wie Ollama mehrere parallele Anfragen verwaltet? Lernen Sie mehr über wie Ollama parallelle Anfragen verarbeitet in unserer detaillierten Analyse.

ollama run führt ein Modell in einer interaktiven Sitzung aus, also bei gpt-oss:120b würden Sie etwas wie sehen:

$ ollama run gpt-oss:120b
>>> Senden Sie eine Nachricht (/? für Hilfe)

Sie können Ihre Fragen oder Befehle eingeben und das Modell wird antworten.

>>> wer sind Sie?
Nachdenken...
Der Nutzer fragt „wer sind Sie?“ Einfache Frage. Sollte als ChatGPT, ein KI-Sprachmodell, trainiert von OpenAI, 
usw. Kurze Einführung geben. Wahrscheinlich fragen, ob sie Hilfe benötigen.
...fertig Nachdenken.

Ich bin ChatGPT, ein KI-Sprachmodell, erstellt von OpenAI. Ich wurde auf einer breiten Palette von Texten trainiert, damit ich helfen 
Antworten auf Fragen, Ideen entwickeln, Konzepte erklären, Schreiben verfassen, Probleme beheben und vieles mehr. Denken 
an mich als vielseitigen virtuellen Assistenten – hier, um Informationen, Unterstützung und Gespräche bereitzustellen, wann immer Sie sie benötigen. Wie kann ich Ihnen heute helfen?

>>> Senden Sie eine Nachricht (/? für Hilfe)

Um die interaktive ollama-Sitzung zu verlassen, drücken Sie Ctrl+D, oder Sie können /bye eingeben, das gleiche Ergebnis:

>>> /bye
$ 

Ollama run Befehl Beispiele

Um ein Modell zu starten und eine einzelne Frage in einer nicht interaktiven Modus zu stellen:

printf "Geben Sie mir 10 bash-Einzeiler für Log-Analyse.\n" | ollama run llama3.2

Wenn Sie detaillierte LLM-Antwort in der ollama-Sitzung sehen möchten – führen Sie das Modell mit --verbose oder -v Parameter aus:

$ ollama run gpt-oss:20b --verbose
>>> wer sind Sie?
Nachdenken...
Wir müssen auf eine einfache Frage antworten: „wer sind Sie?“ Der Nutzer fragt „wer sind Sie?“ Wir können antworten, dass wir 
sind ChatGPT, ein großes Sprachmodell, trainiert von OpenAI. Wir können auch Fähigkeiten erwähnen. Der Nutzer erwartet wahrscheinlich 
eine kurze Einführung. Wir werden es freundlich halten.
...fertig Nachdenken.

Ich bin ChatGPT, ein großes Sprachmodell, erstellt von OpenAI. Ich bin hier, um Fragen zu beantworten, Erklärungen zu geben, 
Ideen zu entwickeln und über eine Vielzahl von Themen zu sprechen – von Wissenschaft und Geschichte bis zu kreativem Schreiben 
und alltäglichen Ratschlägen. Sag einfach, über was du sprechen möchtest!

Gesamte Dauer:       1,118585707s
Ladendauer:        106,690543ms
Prompt-Bewertungszahl:    71 Token
Prompt-Bewertungsdauer: 30,507392ms
Prompt-Bewertungsgeschwindigkeit: 2327,30 Token/s
Bewertungszahl:           132 Token
Bewertungsdauer:        945,801569ms
Bewertungsgeschwindigkeit:            139,56 Token/s
>>> /bye
$ 

Ja, das ist richtig, es sind 139 Token pro Sekunde. Der gpt-oss:20b ist sehr schnell. Wenn Sie, wie ich, eine GPU mit 16 GB VRAM haben – sehen Sie die LLM-Geschwindigkeit-Vergleichsdetails in Beste LLMs für Ollama auf 16 GB VRAM GPU.

Tipp: Wenn Sie das Modell über HTTP für mehrere Anwendungen verfügbar machen möchten, starten Sie den Server mit ollama serve und verwenden Sie den API-Client anstelle langer interaktiver Sitzungen.

Ollama run Flags (vollständiger Verweis)

Flag Beschreibung
--verbose / -v Zeigt Timing-Statistiken (Token/s, Ladezeit, etc.) nach jeder Antwort an
-p, --parameters Übergeben Sie Modellparameter inline ohne eine Modelfile (siehe unten)
--format string Erzwingen Sie ein bestimmtes Ausgabeformat, z. B. json
--nowordwrap Deaktivieren Sie die automatische Wortumbruch — nützlich, wenn Sie Ausgaben an Skripte weiterleiten
--insecure Ermöglicht das Verbinden mit einem Register über HTTP (für private/self-hosted Registrierungen)

Modellparameter überschreiben ohne Modelfile (-p / –parameters)

Das -p-Flag ermöglicht es Ihnen, Inferenzparameter zur Laufzeit ohne eine Modelfile zu ändern. Sie können mehrere -p-Flags stapeln:

# Erhöhen Sie das Kontextfenster und senken Sie die Temperatur
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5

# Führen Sie eine Codierungsaufgabe mit deterministischem Ausgang durch
ollama run devstral:24b -p temperature=0 -p num_ctx=65536

Gängige Parameter, die Sie so festlegen können:

Parameter Effekt
num_ctx Kontextfenstergröße in Token (Standard ist modellabhängig, oft 2048–4096)
temperature Zufälligkeit: 0 = deterministisch, 1 = kreativ
top_p Nukleus-Sampling-Threshold
top_k Begrenzt das Vokabular auf die Top-K-Token
num_predict Maximale Token, die generiert werden (-1 = unbegrenzt)
repeat_penalty Strafe für wiederholte Token

Mehrzeilige Eingabe in der REPL

Um Text in Dreifachanführungszeichen ("\"\"\") zu umschließen, können Sie einen mehrzeiligen Prompt eingeben, ohne ihn frühzeitig zu senden:

>>> """Zusammenfassen Sie dies in einem Satz:
... Der schnelle braune Fuchs springt über den faulen Hund.
... Es geschah an einem Dienstag.
... """

Multimodell-Modelle (Bilder)

Für visionfähige Modelle (z. B. gemma3, llava), geben Sie den Bildpfad direkt im Prompt an:

ollama run gemma3 "Was ist in diesem Bild? /home/user/screenshot.png"

Embedding-Generierung über CLI

Embedding-Modelle geben ein JSON-Array anstelle von Text aus. Richten Sie Text direkt für schnelle Einmal-Embeddings ein:

echo "Hallo Welt" | ollama run nomic-embed-text

Für Produktions-Embedding-Arbeitslasten verwenden Sie stattdessen die /api/embeddings REST-Endpunkt oder den Python-Client.

JSON-Ausgabe erzwingen (–format)

ollama run llama3.2 --format json "Listen Sie 5 Hauptstädte als JSON auf"

Das Modell wird angewiesen, gültiges JSON zurückzugeben. Nützlich, wenn Sie die Ausgabe an jq oder ein Skript weiterleiten, das strukturierte Daten erwartet.

Ollama stop Befehl

Dieser Befehl stoppt das angegebene laufende Modell.

ollama stop llama3.1:8b-instruct-q8_0

Ollama entlädt Modelle automatisch nach einiger Zeit. Sie können diese Zeit angeben, der Standardwert ist 4 Minuten. Wenn Sie nicht warten möchten, bis die verbleibende Zeit abgelaufen ist, möchten Sie möglicherweise diesen ollama stop-Befehl verwenden. Sie können auch das Modell aus dem VRAM verdrängen, indem Sie den /generate-API-Endpunkt mit dem Parameter keep_alive=0 aufrufen, siehe unten für die Beschreibung und das Beispiel.

Ollama ps Befehl

ollama ps zeigt derzeit laufende Modelle und Sitzungen an (nützlich, um „warum ist mein VRAM voll?“ zu debuggen).

ollama ps

Ein Beispiel für die Ausgabe von ollama ps ist unten:

NAME           ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 Minuten von jetzt an

Hier sehen Sie auf meinem PC, dass gpt-oss:20b sehr gut in meine GPU mit 16 GB VRAM passt und nur 14 GB belegt.

Wenn ich ollama run gpt-oss:120b ausführe und dann ollama ps aufrufe, wird das Ergebnis nicht so gut sein: 78 % der Schichten sind auf der CPU, und das ist nur mit dem Kontextfenster 4096 Token. Es wird schlimmer, wenn ich den Kontext erhöhen muss.

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 Minuten von jetzt an

Ollama launch Befehl (AI-Codierungsintegrationen)

ollama launch ist ein Befehl, der in Ollama v0.15 (Januar 2026) eingeführt wurde, der Ihnen eine null-Konfigurations-, einzeilige Einrichtung für beliebte AI-Codierungsassistenten bietet, die gegen Ihren lokalen Ollama-Server laufen.

Warum ollama launch verwenden?

Bevor ollama launch, das Verkabeln eines Codierungsagents wie Claude Code oder Codex mit einem lokalen Ollama-Backend bedeutete, manuell Umgebungsvariablen zu setzen, den Tool auf den richtigen API-Endpunkt zu zeigen und ein kompatibles Modell auszuwählen. ollama launch kümmert sich für Sie interaktiv um alles.

Wenn Sie bereits lokal Ollama laufen und einen agentenbasierten Codierungsassistenten ohne API-Aufrufe oder Code an die Cloud zu senden möchten, ist ollama launch der schnellste Weg dorthin.

Unterstützte Integrationen

Integration Was es ist
claude Anthropics Claude Code — agenterbasierter Codierungsassistent
codex OpenAIs Codex CLI-Codierungsassistent
droid Factorys AI-Codierungsagent
opencode Open-Source-Codierungsassistent

Grundlegende Verwendung

# Interaktiver Picker — wählen Sie eine Integration aus einem Menü aus
ollama launch

# Starten Sie eine bestimmte Integration direkt
ollama launch claude

# Starten Sie mit einem bestimmten Modell
ollama launch claude --model qwen3-coder

# Konfigurieren Sie die Integration ohne sie zu starten (nützlich, um Einstellungen zu inspizieren)
ollama launch droid --config

Empfohlene Modelle

Codierungsagenten benötigen ein langes Kontextfenster, um ganze Dateikontexte und mehrere Gesprächsgeschichten zu halten. Ollama empfiehlt Modelle mit mindestens 64 000 Token Kontext:

Modell Notizen
qwen3-coder Starke Codierungsleistung, langer Kontext, läuft lokal
glm-4.7-flash Schnelle lokale Option
devstral:24b Mistral-fokussiertes Codierungsmodell

Wenn Ihre GPU das Modell nicht aufnehmen kann, bietet Ollama auch Cloud-hostete Varianten (z. B. qwen3-coder:480b-cloud), die sich auf die gleiche Weise integrieren, aber die Inferenz an die Ollama-Cloudschicht routen — dies erfordert ollama signin.

Beispiel: Lokales Laufen von Claude Code mit Ollama

# 1. Stellen Sie sicher, dass das Modell verfügbar ist
ollama pull qwen3-coder

# 2. Starten Sie Claude Code gegen es
ollama launch claude --model qwen3-coder

Ollama setzt die notwendigen Umgebungsvariablen und startet Claude Code automatisch, wobei auf http://localhost:11434 gezeigt wird. Sie können dann Claude Code genau so verwenden, wie Sie es normalerweise tun würden — der einzige Unterschied ist, dass die Inferenz auf Ihrer eigenen Hardware erfolgt.

Leistungsregler (OLLAMA_NUM_PARALLEL)

Wenn Sie unter Last Warteschlangen oder Timeout beobachten, ist der erste Regler, den Sie lernen sollten, OLLAMA_NUM_PARALLEL.

  • OLLAMA_NUM_PARALLEL = wie viele Anfragen Ollama parallel ausführt.
  • Ein höherer Wert kann die Durchsatzrate erhöhen, kann aber die VRAM-Druck und Latenzspitzen erhöhen.

Schnelles Beispiel:

OLLAMA_NUM_PARALLEL=2 ollama serve

Für eine vollständige Erklärung (einschließlich Abstimmungsstrategien und Fehlmodi), siehe:

Ollama-Modell aus VRAM freigeben (keep_alive)

Wenn ein Modell in die VRAM (GPU-Speicher) geladen wird, bleibt es dort, auch nachdem Sie mit ihm fertig sind. Um ein Modell explizit aus der VRAM zu freigeben und den GPU-Speicher zu befreien, können Sie eine Anfrage an die Ollama-API mit keep_alive: 0 senden.

  • Modell aus VRAM freigeben mit curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Ersetzen Sie MODELNAME mit Ihrem tatsächlichen Modellnamen, z. B.:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Modell aus VRAM freigeben mit Python:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Dies ist besonders nützlich, wenn:

  • Sie den GPU-Speicher für andere Anwendungen freigeben müssen
  • Sie mehrere Modelle ausführen und die VRAM-Nutzung verwalten möchten
  • Sie einen großen Modell verwendet haben und die Ressourcen sofort freigeben möchten

Hinweis: Der keep_alive-Parameter steuert, wie lange (in Sekunden) ein Modell im Speicher geladen bleibt, nachdem die letzte Anfrage erfolgt ist. Bei der Einstellung auf 0 wird das Modell sofort aus der VRAM entladen.

Anpassen von Ollama-Modellen (Systemprompt, Modelfile)

  • Systemprompt setzen: Innerhalb der Ollama REPL können Sie einen Systemprompt setzen, um das Verhalten des Modells anzupassen:

    >>> /set system Für alle gestellten Fragen antworte in einfacher englischer Sprache und vermeide technische Fachbegriffe so weit wie möglich
    >>> /save ipe
    >>> /bye
    

    Danach können Sie das angepasste Modell ausführen:

    ollama run ipe
    

    Dies setzt einen Systemprompt und speichert das Modell für spätere Verwendung.

  • Benutzerdefinierte Modelldatei erstellen: Erstellen Sie eine Textdatei (z. B. custom_model.txt) mit folgender Struktur:

    FROM llama3.1
    SYSTEM [Ihre benutzerdefinierten Anweisungen hier]
    

    Danach führen Sie aus:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    Dies erstellt ein benutzerdefiniertes Modell basierend auf den Anweisungen in der Datei".

Ollama anmelden und abmelden (Registrierungsauthentifizierung)

ollama signin
ollama signout

ollama signin authentifiziert Ihre lokale Ollama-Installation mit dem Ollama-Register auf ollama.com. Nachdem Sie sich angemeldet haben, speichert der Client die Anmeldeinformationen lokal und verwendet sie automatisch für nachfolgende Befehle.

Was anmelden ermöglicht:

  • Private Modelle aus Ihrem Konto oder Ihrer Organisation herunterladen und hochladen.
  • Cloud-hostete Modelle (z. B. qwen3-coder:480b-cloud) verwenden, die zu groß sind, um lokal laufen zu können.
  • Modelle mit ollama push zum Register hochladen.

Alternative: API-Schlüssel-Authentifizierung

Wenn Sie Ollama in einer CI-Pipeline oder einem headless-Server ausführen, wo eine interaktive ollama signin nicht praktisch ist, erstellen Sie einen API-Schlüssel in Ihren Ollama-Konto-Einstellungen und geben Sie ihn als Umgebungsvariable an:

export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model

Die Variable OLLAMA_API_KEY wird automatisch von jedem Ollama-Befehl und API-Anfrage erkannt — es ist nicht notwendig, ollama signin auf jedem Rechner auszuführen.

Ollama run Befehl mit Dateien verwenden (zusammenfassen, umleiten)

  • Text aus einer Datei zusammenfassen:

    ollama run llama3.2 "Zusammenfassen Sie den Inhalt dieser Datei in 50 Wörtern." < input.txt
    

    Dieser Befehl fasst den Inhalt von input.txt mit dem angegebenen Modell zusammen.

  • Modellantworten in eine Datei umleiten:

    ollama run llama3.2 "Erzählen Sie mir über erneuerbare Energien." > output.txt
    

    Dieser Befehl speichert die Modellantwort in output.txt.

Ollama CLI-Anwendungsfälle (Textgenerierung, Analyse)

  • Textgenerierung:

    • Zusammenfassen eines großen Textdokuments:
      ollama run llama3.2 "Zusammenfassen Sie den folgenden Text:" < long-document.txt
      
    • Inhalt generieren:
      ollama run llama3.2 "Schreiben Sie einen kurzen Artikel über die Vorteile der Verwendung von KI in der Gesundheitsversorgung." > article.txt
      
    • Beantworten spezifischer Fragen:
      ollama run llama3.2 "Was sind die neuesten Trends in der KI und wie werden sie die Gesundheitsversorgung beeinflussen?"
      

    .

  • Datenverarbeitung und -analyse:

    • Klassifizieren Sie Text in positive, negative oder neutrale Stimmung:
      ollama run llama3.2 "Analysieren Sie die Stimmung dieses Kundenbewertung: 'Das Produkt ist fantastisch, aber die Lieferung war langsam.'"
      
    • Kategorisieren Sie Text in vorgegebene Kategorien: Verwenden Sie ähnliche Befehle, um Text basierend auf vorgegebenen Kriterien zu klassifizieren oder kategorisieren.

Ollama mit Python verwenden (Client und API)

  • Ollama Python-Bibliothek installieren:
    pip install ollama
    
  • Text mit Python generieren:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='Was ist ein Qubit?')
    print(response['response'])
    
    Dieser Codeausschnitt generiert Text mit dem angegebenen Modell und Prompt.

Für fortgeschrittene Python-Integration, erkunden Sie die Verwendung der Web-Suche-API von Ollama in Python, die Web-Suche-Fähigkeiten, Tool-Aufruf und MCP-Server-Integration abdeckt. Wenn Sie Anwendungen mit KI-Power erstellen, kann uns Vergleich von AI-Codierungsassistenten dabei helfen, die richtigen Tools für die Entwicklung zu wählen.

Suchen Sie nach einer webbasierten Schnittstelle? Open WebUI bietet eine selbstgehostete Schnittstelle mit RAG-Fähigkeiten und Multi-User-Unterstützung. Für Hochleistungsproduktionsbereitstellungen, erwägen Sie vLLM als Alternative. Um Ollama mit anderen lokalen und Cloud-LLM-Infrastruktur-Optionen zu vergleichen, siehe LLM-Hosting: Lokal, Selbstgehostet & Cloud-Infrastruktur im Vergleich.

Konfiguration und Verwaltung

Alternativen und Vergleiche

Leistung und Hardware

Integration und Entwicklung