AI - Page 3 - Rost Glukhov | Site personnel et blog technique

Installation et configuration de Claude Code pour Ollama, llama.cpp, tarification

Claude Code n’est pas un simple autocomplétion avec un meilleur marketing. C’est un outil de codage agentique : il lit votre base de code, modifie des fichiers, exécute des commandes et s’intègre à vos outils de développement.

Assistant IA Hermes - Installation, configuration, flux de travail et dépannage

Hermes Agent est un assistant IA auto-hébergé et agnostique en ce qui concerne les modèles, qui s’exécute sur une machine locale ou un VPS à faible coût, fonctionne via des interfaces en terminal et de messagerie, et s’améliore avec le temps en transformant les tâches répétitives en compétences réutilisables.

TGI - Text Generation Inference - Installation, Configuration, Dépannage

Text Generation Inference (TGI) possède une énergie très particulière. Ce n’est pas le nouveau venu de la rue de l’inférence, mais c’est celui qui a déjà appris comment la production peut se briser -

Benchmarks LLM avec 16 Go de VRAM et llama.cpp (vitesse et contexte)

Voici une comparaison de la vitesse de plusieurs LLMs (modèles de langage grand) fonctionnant sur un GPU avec 16 Go de VRAM, et le choix du meilleur pour l’auto-hébergement.

Ollama dans Docker Compose avec GPU et stockage persistant des modèles

Ollama fonctionne parfaitement sur du matériel nu. Cela devient encore plus intéressant lorsque vous le traitez comme un service : une extrémité stable, des versions figées, un stockage persistant et une GPU qui est soit disponible, soit non.

Ollama derrière un proxy inversé avec Caddy ou Nginx pour le streaming HTTPS

Exécuter Ollama derrière un proxy inversé est le moyen le plus simple d’obtenir HTTPS, un contrôle d’accès facultatif et un comportement de streaming prévisible.

Démarrage rapide de SGLang : Installation, configuration et déploiement de LLM via l’API OpenAI

SGLang est un framework de service haute performance pour les grands modèles de langage et les modèles multimodaux, conçu pour fournir une inférence à faible latence et à haut débit sur tout, d’une seule GPU à des clusters distribués.

Guide de prise en main rapide du sélecteur de modèles llama.swap pour les LLM locaux compatibles OpenAI

Bientôt, vous jonglerez avec vLLM, llama.cpp et plus encore — chaque pile sur son propre port. Tout ce qui se trouve en aval souhaite toujours une URL de base /v1; sinon, vous continuez à changer de ports, de profils et de scripts ponctuels. llama-swap est le proxy /v1 avant ces piles.

Systèmes d’IA : assistants auto-hébergés, RAG et infrastructure locale

La plupart des configurations locales d’IA commencent par un modèle et un runtime.

Oh My Opencode Avis : Résultats honnêtes, risques de facturation et quand cela vaut la peine

Oh My Opencode promet une « équipe de développement IA virtuelle » : Sisyphus orchestre des spécialistes, les tâches s’exécutent en parallèle et le mot magique ultrawork active tout cela.

Plongée approfondie et guide des modèles des agents spécialisés Opencode

Le saut de capacité le plus important dans OpenCode provient des agents spécialisés : séparation délibérée de l’orchestration, de la planification, de l’exécution et de la recherche.

« Oh My Opencode : Démarrage rapide pour OpenCode – Installation, configuration et exécution »

Oh My Opencode transforme OpenCode en un harnais de codage multi-agents : un orchestrateur délègue le travail à des agents spécialisés qui s’exécutent en parallèle.

Meilleurs LLMs pour OpenCode - De Gemma 4 à Qwen 3.6, testés localement

J’ai testé comment OpenCode fonctionne avec plusieurs LLM hébergés localement sur Ollama et llama.cpp, et j’ai ajouté pour comparaison quelques modèles gratuits provenant d’OpenCode Zen.

Début rapide de l'assistant de codage OpenHands : installation, options de ligne de commande et exemples

OpenHands est une plateforme open-source et agnostique des modèles pour les agents de développement logiciel pilotés par l’IA. Il permet à un agent de se comporter davantage comme un partenaire de codage que comme un simple outil de complétion automatique.

LocalAI QuickStart : Exécuter des LLM compatibles OpenAI localement

LocalAI est un serveur d’inférence auto-hébergé, conçu en priorité pour une utilisation locale, qui se comporte comme une API OpenAI de remplacement pour exécuter des charges de travail d’IA sur votre propre matériel (ordinateur portable, station de travail ou serveur sur site).

Introduction à llama.cpp avec CLI et Serveur

Je reviens sans cesse à llama.cpp pour l’inférence locale : il vous offre un contrôle que Ollama et d’autres solutions abstraissent, et il fonctionne simplement. Il est facile d’exécuter des modèles GGUF de manière interactive avec llama-cli ou d’exposer une API HTTP compatible OpenAI avec llama-server.