LLM - Page 2 - Rost Glukhov | Site personnel et blog technique

Installation et configuration de Claude Code pour Ollama, llama.cpp, tarification

Claude Code n’est pas un simple autocomplétion avec un meilleur marketing. C’est un outil de codage agentique : il lit votre base de code, modifie des fichiers, exécute des commandes et s’intègre à vos outils de développement.

Assistant IA Hermes - Installation, Configuration, Flux de Travail et Dépannage

L’agent Hermes est un assistant IA auto-hébergé et agnostique au modèle qui s’exécute sur une machine locale ou un VPS à bas coût, fonctionne via des interfaces de terminal et de messagerie, et s’améliore avec le temps en transformant les tâches répétitives en compétences réutilisables.

TGI - Text Generation Inference - Installation, Configuration, Dépannage

Text Generation Inference (TGI) possède une énergie très particulière. Ce n’est pas le nouveau venu de la rue de l’inférence, mais c’est celui qui a déjà appris comment la production peut se briser -

Benchmarks de LLM avec 16 Go de VRAM utilisant llama.cpp (vitesse et contexte)

Voici je compare la vitesse de plusieurs LLMs exécutés sur un GPU avec 16 Go de VRAM, et je choisis le meilleur pour l’auto-hébergement.

Prix et disponibilité de la RTX 5090 en Australie : la réalité de mars 2026

L’Australie dispose de stock pour la RTX 5090. À peine. Et si vous en trouvez une, vous paierez une prime qui semble déconnectée de la réalité.

Accès distant à Ollama via Tailscale ou WireGuard, sans ports publics.

Ollama est à son meilleur lorsque l’on le traite comme un démon local : la CLI et vos applications communiquent avec une API HTTP en boucle locale (loopback), et le reste du réseau ignore son existence.

Ollama dans Docker Compose avec GPU et stockage persistant des modèles

Ollama fonctionne parfaitement sur du matériel nu. Cela devient encore plus intéressant lorsque vous le traitez comme un service : une extrémité stable, des versions figées, un stockage persistant et une GPU qui est soit disponible, soit non.

Ollama derrière un proxy inversé avec Caddy ou Nginx pour le streaming HTTPS

Exécuter Ollama derrière un proxy inversé est le moyen le plus simple d’obtenir HTTPS, un contrôle d’accès facultatif et un comportement de streaming prévisible.

Embeddings de texte pour RAG et recherche - Python, Ollama, API compatibles OpenAI

Si vous travaillez sur la génération augmentée par récupération (RAG), cette section explique les incorporations de texte (text embeddings) en termes simples : ce qu’elles sont, comment elles s’intègrent dans la recherche et la récupération, et comment appeler deux configurations locales courantes depuis Python en utilisant Ollama ou une API HTTP compatible OpenAI (comme le font de nombreux serveurs basés sur llama.cpp).

Démarrage rapide de SGLang : Installation, configuration et déploiement de LLM via l’API OpenAI

SGLang est un framework de service haute performance pour les grands modèles de langage et les modèles multimodaux, conçu pour fournir une inférence à faible latence et à haut débit sur tout, d’une seule GPU à des clusters distribués.

Guide de prise en main rapide du sélecteur de modèles llama.swap pour les LLM locaux compatibles OpenAI

Bientôt, vous jonglerez avec vLLM, llama.cpp et plus encore — chaque pile sur son propre port. Tout ce qui se trouve en aval souhaite toujours une URL de base /v1; sinon, vous continuez à changer de ports, de profils et de scripts ponctuels. llama-swap est le proxy /v1 avant ces piles.

Systèmes d’IA : assistants auto-hébergés, RAG et infrastructure locale

La plupart des configurations locales d’IA commencent par un modèle et un runtime.

Oh My Opencode Avis : Résultats honnêtes, risques de facturation et quand cela vaut la peine

Oh My Opencode promet une « équipe de développement IA virtuelle » : Sisyphus orchestre des spécialistes, les tâches s’exécutent en parallèle et le mot magique ultrawork active tout cela.

Plongée approfondie et guide des modèles des agents spécialisés Opencode

Le saut de capacité le plus important dans OpenCode provient des agents spécialisés : séparation délibérée de l’orchestration, de la planification, de l’exécution et de la recherche.

« Oh My Opencode : Démarrage rapide pour OpenCode – Installation, configuration et exécution »

Oh My Opencode transforme OpenCode en un harnais de codage multi-agents : un orchestrateur délègue le travail à des agents spécialisés qui s’exécutent en parallèle.

Meilleurs LLMs pour OpenCode - De Gemma 4 à Qwen 3.6, testés localement

J’ai testé comment OpenCode fonctionne avec plusieurs LLM hébergés localement sur Ollama et llama.cpp, et j’ai ajouté pour comparaison quelques modèles gratuits provenant d’OpenCode Zen.