Ollama Cheatsheet - commandes les plus utiles - mise à jour 2026
J'ai compilé cette liste de commandes Ollama il y a quelque temps...
Voici la liste et des exemples des commandes Ollama les plus utiles (cheatsheet des commandes Ollama) que j’ai compilées il y a quelque temps, dernière mise à jour en janvier 2026. Espérons qu’elles vous seront utiles aussi !

Ce cheatsheet Ollama se concentre sur les commandes CLI, la gestion des modèles et la personnalisation, mais nous avons aussi quelques appels curl.
Si vous comparez différentes solutions d’hébergement de LLM locales, consultez notre comparaison complète d’Ollama, vLLM, LocalAI, Jan, LM Studio et bien d’autres. Pour ceux qui cherchent des alternatives aux interfaces en ligne de commande, Docker Model Runner offre une approche différente du déploiement de LLM.
Installation
- Option 1 : Téléchargement depuis le site web
- Visitez ollama.com et téléchargez l’installateur pour votre système d’exploitation (Mac, Linux ou Windows).
- Option 2 : Installation via la ligne de commande
- Pour les utilisateurs Mac et Linux, utilisez la commande :
curl https://ollama.ai/install.sh | sh
- Suivez les instructions à l’écran et entrez votre mot de passe si demandé.
Configuration système
- Système d’exploitation : Mac ou Linux (version Windows en développement)
- Mémoire (RAM) : 8 Go minimum, 16 Go ou plus recommandés
- Stockage : Au moins ~10 Go d’espace libre (les fichiers de modèles peuvent être très volumineux, voir ici plus Déplacer les modèles Ollama vers un autre disque)
- Processeur : Un CPU relativement moderne (des 5 dernières années). Si vous êtes curieux de savoir comment Ollama utilise différentes architectures CPU, consultez notre analyse de comment Ollama utilise les cœurs de performance et efficaces d’Intel.
Pour des charges de travail AI sérieuses, vous pourriez vouloir comparer les options matérielles. Nous avons benchmarké NVIDIA DGX Spark vs Mac Studio vs RTX-4080 avec Ollama, et si vous envisagez d’investir dans du matériel haut de gamme, notre comparaison des prix et capacités de DGX Spark fournit une analyse détaillée des coûts.
Commandes de base de l’interface CLI Ollama
| Commande | Description |
|---|---|
ollama serve |
Démarre Ollama sur votre système local. |
ollama create <nouveau_modèle> |
Crée un nouveau modèle à partir d’un existant pour personnalisation ou entraînement. |
ollama show <modèle> |
Affiche les détails d’un modèle spécifique, comme sa configuration et sa date de sortie. |
ollama run <modèle> |
Exécute le modèle spécifié, le rendant prêt pour l’interaction. |
ollama pull <modèle> |
Télécharge le modèle spécifié sur votre système. |
ollama list |
Liste tous les modèles téléchargés. Identique à ollama ls |
ollama ps |
Affiche les modèles actuellement en cours d’exécution. |
ollama stop <modèle> |
Arrête le modèle spécifié en cours d’exécution. |
ollama rm <modèle> |
Supprime le modèle spécifié de votre système. |
ollama help |
Fournit de l’aide sur n’importe quelle commande. |
Gestion des modèles
-
Télécharger un modèle :
ollama pull mistral-nemo:12b-instruct-2407-q6_KCette commande télécharge le modèle spécifié (par exemple, Gemma 2B, ou mistral-nemo:12b-instruct-2407-q6_K) sur votre système. Les fichiers de modèles peuvent être assez volumineux, alors surveillez l’espace utilisé par les modèles sur le disque dur ou le SSD. Vous pourriez même vouloir déplacer tous les modèles Ollama de votre répertoire personnel vers un autre disque plus grand et meilleur
-
Exécuter un modèle :
ollama run qwen2.5:32b-instruct-q3_K_SCette commande démarre le modèle spécifié et ouvre un REPL interactif pour l’interaction. Voulez-vous comprendre comment Ollama gère les requêtes parallèles ? Découvrez-en plus sur comment Ollama gère les requêtes parallèles dans notre analyse détaillée.
-
Lister les modèles :
ollama listidentique à :
ollama lsCette commande liste tous les modèles qui ont été téléchargés sur votre système, comme
$ ollama ls NAME ID SIZE MODIFIED deepseek-r1:8b 6995872bfe4c 5,2 Go 2 semaines auparavant gemma3:12b-it-qat 5d4fa005e7bb 8,9 Go 2 semaines auparavant LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 Go 3 semaines auparavant dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4,7 Go 4 semaines auparavant dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2,9 Go 4 semaines auparavant qwen3:8b 500a1f067a9f 5,2 Go 5 semaines auparavant qwen3:14b bdbd181c33f2 9,3 Go 5 semaines auparavant qwen3:30b-a3b 0b28110b7a33 18 Go 5 semaines auparavant devstral:24b c4b2fa0c33d7 14 Go 5 semaines auparavant -
Arrêter un modèle :
ollama stop llama3.1:8b-instruct-q8_0Cette commande arrête le modèle spécifié en cours d’exécution.
Libération du modèle de la VRAM
Lorsque qu’un modèle est chargé dans la VRAM (mémoire GPU), il y reste même après avoir terminé de l’utiliser. Pour libérer explicitement un modèle de la VRAM et libérer de la mémoire GPU, vous pouvez envoyer une requête à l’API Ollama avec keep_alive: 0.
- Libérer le modèle de la VRAM en utilisant curl :
curl http://localhost:11434/api/generate -d '{"model": "NOMDUMODELE", "keep_alive": 0}'
Remplacez NOMDUMODELE par le nom réel de votre modèle, par exemple :
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Libérer le modèle de la VRAM en utilisant Python :
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Ceci est particulièrement utile lorsque :
- Vous avez besoin de libérer de la mémoire GPU pour d’autres applications
- Vous exécutez plusieurs modèles et souhaitez gérer l’utilisation de la VRAM
- Vous avez terminé l’utilisation d’un grand modèle et souhaitez libérer les ressources immédiatement
Note : Le paramètre keep_alive contrôle la durée (en secondes) pendant laquelle un modèle reste chargé en mémoire après la dernière requête. Le définir à 0 décharge immédiatement le modèle de la VRAM.
Personnalisation des modèles
-
Définir une invite système : Dans le REPL Ollama, vous pouvez définir une invite système pour personnaliser le comportement du modèle :
>>> /set system Pour toutes les questions posées, répondez en anglais simple en évitant le jargon technique autant que possible >>> /save ipe >>> /byeEnsuite, exécutez le modèle personnalisé :
ollama run ipeCela définit une invite système et sauvegarde le modèle pour une utilisation future.
-
Créer un fichier de modèle personnalisé : Créez un fichier texte (par exemple,
custom_model.txt) avec la structure suivante :FROM llama3.1 SYSTEM [Vos instructions personnalisées ici]Ensuite, exécutez :
ollama create mymodel -f custom_model.txt ollama run mymodelCela crée un modèle personnalisé basé sur les instructions dans le fichier.
Utilisation d’Ollama avec des fichiers
-
Résumé du texte d’un fichier :
ollama run llama3.2 "Résumé le contenu de ce fichier en 50 mots." < input.txtCette commande résume le contenu de
input.txten utilisant le modèle spécifié. -
Enregistrement des réponses du modèle dans un fichier :
ollama run llama3.2 "Parlez-moi de l'énergie renouvelable." > output.txtCette commande sauvegarde la réponse du modèle dans
output.txt.
Cas d’utilisation courants
-
Génération de texte :
- Résumer un grand fichier texte :
ollama run llama3.2 "Résumé le texte suivant :" < long-document.txt - Générer du contenu :
ollama run llama3.2 "Écrivez un court article sur les avantages de l'utilisation de l'IA dans les soins de santé." > article.txt - Répondre à des questions spécifiques :
ollama run llama3.2 "Quelles sont les dernières tendances en IA, et comment vont-elles affecter les soins de santé ?"
- Résumer un grand fichier texte :
-
Traitement et analyse de données :
- Classer le texte en sentiment positif, négatif ou neutre :
ollama run llama3.2 "Analysez le sentiment de cette critique client : 'Le produit est fantastique, mais la livraison était lente.'" - Catégoriser le texte dans des catégories prédéfinies : Utilisez des commandes similaires pour classer ou catégoriser le texte en fonction de critères prédéfinis.
- Classer le texte en sentiment positif, négatif ou neutre :
Utilisation d’Ollama avec Python
- Installer la bibliothèque Python Ollama :
pip install ollama - Générer du texte en utilisant Python :
Ce fragment de code génère du texte en utilisant le modèle et l’invite spécifiés.
import ollama response = ollama.generate(model='gemma:2b', prompt='what is a qubit?') print(response['response'])
Pour une intégration avancée avec Python, explorez l’utilisation de l’API de recherche web d’Ollama en Python, qui couvre les capacités de recherche web, l’appel d’outils et l’intégration des serveurs MCP. Si vous construisez des applications alimentées par l’IA, notre comparaison des assistants de codage IA peut vous aider à choisir les bons outils pour le développement.
À la recherche d’une interface web ? Open WebUI fournit une interface en auto-hébergement avec des capacités RAG et un support multi-utilisateurs. Pour des déploiements de production haute performance, envisagez vLLM comme alternative.
Liens utiles
Alternatives et comparaisons
- Hébergement local de LLM : Guide complet 2026 - Ollama, vLLM, LocalAI, Jan, LM Studio & Plus
- vLLM Quickstart : Serving de LLM haute performance
- Docker Model Runner vs Ollama : Lequel choisir ?
- Premiers signes d’enshittification d’Ollama
Performance et matériel
- Comment Ollama gère les requêtes parallèles
- Comment Ollama utilise les performances et les cœurs efficaces des CPU Intel
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080 : Comparaison des performances d’Ollama
- DGX Spark vs. Mac Studio : Un regard pratique et vérifié par les prix sur le superordinateur IA personnel de NVIDIA
Intégration et développement
- Utilisation de l’API de recherche web d’Ollama en Python
- Comparaison des assistants de codage IA
- Open WebUI : Interface LLM en auto-hébergement
- Interfaces de chat open-source pour les LLM sur des instances locales d’Ollama
- Contrôle des LLM avec des sorties structurées : Ollama, Qwen3 & Python ou Go
- Intégration d’Ollama avec Python : Exemples d’API REST et de client Python
- SDKs Go pour Ollama - comparaison avec des exemples