Ollama

J’ai découvert des tests de performance intéressants sur l’exécution du modèle GPT-OSS 120b avec Ollama sur trois plateformes différentes : NVIDIA DGX Spark, Mac Studio, et RTX 4080. Le modèle GPT-OSS 120b de la bibliothèque Ollama pèse 65 Go, ce qui signifie qu’il ne peut pas s’exécuter dans les 16 Go de VRAM d’un RTX 4080 (ou sur le plus récent RTX 5080).

Docker Model Runner vs Ollama (2026) : lequel est meilleur pour les LLM locaux ?

Exécuter des grands modèles de langage (LLMs) localement a de plus en plus de popularité pour la confidentialité, le contrôle des coûts et les capacités hors ligne. Le paysage s’est considérablement transformé en avril 2025 lorsque Docker a introduit Docker Model Runner (DMR), sa solution officielle pour le déploiement de modèles d’IA.

Clients Go pour Ollama : comparaison des SDK et exemples avec Qwen3/GPT-OSS

Ce guide fournit un aperçu complet des SDK Go pour Ollama disponibles et compare leurs ensembles de fonctionnalités.

Voici une comparaison entre Qwen3:30b et GPT-OSS:20b
axée sur le suivi des instructions et les performances, les spécifications et la vitesse.

Intégrer Ollama avec Python : exemples d'API REST et de client Python

Dans cet article, nous allons explorer deux façons de connecter votre application Python à Ollama : 1. Via HTTP REST API ; 2. Via la bibliothèque Python officielle d’Ollama.

Problèmes de sortie structurée d'Ollama GPT-OSS

Les modèles GPT-OSS d’Ollama présentent régulièrement des problèmes pour gérer les sorties structurées, surtout lorsqu’ils sont utilisés avec des cadres comme LangChain, OpenAI SDK, vllm et d’autres.

Contrainte des LLM avec une sortie structurée : Ollama, Qwen3 & Python ou Go

Les grands modèles de langage (LLMs) sont puissants, mais en production, nous souhaitons rarement des paragraphes libres. Au contraire, nous voulons des données prévisibles : des attributs, des faits ou des objets structurés que vous pouvez alimenter dans une application. C’est la sortie structurée des LLM.

Allocation de mémoire et planification du modèle dans la nouvelle version d'Ollama - v0.12.1

Ici, je compare la quantité de VRAM allouée par la nouvelle version d’Ollama au modèle par rapport à la version précédente d’Ollama. La nouvelle version est pire.

L'Enshittification d'Ollama - Les premiers signes

Ollama est rapidement devenu l’un des outils les plus populaires pour exécuter des LLM localement. Son interface CLI simple et sa gestion des modèles optimisée l’ont rendu l’option de prédilection pour les développeurs souhaitant travailler avec des modèles d’IA en dehors du cloud.

Interfaces de chat pour les instances locales d'Ollama

Localement hébergé, Ollama permet d’exécuter des modèles de langage sur votre propre machine, mais son utilisation via la ligne de commande n’est pas très conviviale.
Voici plusieurs projets open source qui proposent des interfaces du style ChatGPT qui se connectent à un Ollama local.

Reclassement de documents avec Ollama et le modèle Qwen3 Reranker — en Go

Puisque la version standard d’Ollama ne possède pas d’API de reranking directe, vous devrez implémenter le reranking en utilisant Qwen3 Reranker en GO en générant des embeddings pour les paires requête-document et en les notant.

Comparaison de la qualité de la traduction des pages Hugo - LLMs sur Ollama

Dans ce test, je suis en train de comparer comment différents LLMs hébergés sur Ollama traduisent une page Hugo en anglais vers l’allemand.

Reclassement de textes avec Ollama et l'LLM d'embedding Qwen3 - en Go

Cet exemple de code Go pour le reranking appelle Ollama pour générer des embeddings pour la requête et pour chaque document candidat, puis les trie de manière décroissante selon la similarité cosinus.

Modèles d'embedding et de reranking Qwen3 sur Ollama : des performances de pointe

Les modèles Qwen3 Embedding et Reranker sont les dernières publications de la famille Qwen, conçues spécifiquement pour les tâches avancées d’incorporation de texte (embedding), de récupération et de reranking.

Performance des LLM et voies PCIe : Points clés à considérer

Comment les canaux PCIe affectent les performances des LLM ? Selon la tâche. Pour l’entraînement et l’inférence multi-GPU, la baisse de performance est significative.

Convertir du contenu HTML en Markdown à l'aide d'un LLM et d'Ollama

Dans la bibliothèque de modèles Ollama, il existe des modèles capables de convertir du contenu HTML en Markdown, ce qui est utile pour les tâches de conversion de contenu. Ce guide fait partie de notre Outils de Documentation en 2026 : Markdown, LaTeX, PDF et Flux de Travail d’Impression hub.

Ollama

NVIDIA DGX Spark vs Mac Studio vs RTX-4080 : Comparaison des performances d'Ollama

Docker Model Runner vs Ollama (2026) : lequel est meilleur pour les LLM locaux ?

Clients Go pour Ollama : comparaison des SDK et exemples avec Qwen3/GPT-OSS

Comparaison : Qwen3:30b vs GPT-OSS:20b

Intégrer Ollama avec Python : exemples d'API REST et de client Python

Problèmes de sortie structurée d'Ollama GPT-OSS

Contrainte des LLM avec une sortie structurée : Ollama, Qwen3 & Python ou Go

Allocation de mémoire et planification du modèle dans la nouvelle version d'Ollama - v0.12.1

L'Enshittification d'Ollama - Les premiers signes

Interfaces de chat pour les instances locales d'Ollama

Reclassement de documents avec Ollama et le modèle Qwen3 Reranker — en Go

Comparaison de la qualité de la traduction des pages Hugo - LLMs sur Ollama

Reclassement de textes avec Ollama et l'LLM d'embedding Qwen3 - en Go

Modèles d'embedding et de reranking Qwen3 sur Ollama : des performances de pointe

Performance des LLM et voies PCIe : Points clés à considérer

Convertir du contenu HTML en Markdown à l'aide d'un LLM et d'Ollama