Self-Hosting

Charger tous les modèles du routeur llama.cpp sans redémarrage

Mode routeur de llama.cpp est l’un des changements les plus utiles apportés à llama-server depuis des années. Il offre enfin aux opérateurs de LLM locaux une expérience de gestion des modèles proche de celle attendue d’Ollama, tout en conservant les performances brutes et le contrôle de bas niveau qui rendent llama.cpp intéressant à utiliser en premier lieu.

Référence des paramètres d'inférence des LLMs agissants pour Qwen et Gemma

Cette page est une référence pratique pour l’optimisation de l’inférence des LLMs agents (température, top_p, top_k, pénalités, et comment ils interagissent dans les flux de travail multi-étapes et intensifs en outils).

Contrôle vocal d'Hermes depuis votre téléphone

Vous discutez déjà avec l’agent Hermes depuis votre téléphone par messages texte. Vous souhaitez désormais lui parler directement et recevoir des réponses vocales. C’est généralement la bonne approche, surtout si vous utilisez déjà Hermes comme assistant auto-hébergé persistant. Taper de longs prompts sur un petit écran est lent et sujet aux erreurs.

Guide pratique NemoClaw pour des opérations OpenClaw sécurisées en 2026

La plupart des stacks d’agents IA considèrent encore la sécurité comme une correction à appliquer après la démonstration. NemoClaw part du principe inverse et fait de l’isolation, des politiques et du routage des valeurs par défaut dès le premier jour.

Gestion des connaissances en 2026 : outils PKM, wikis auto-hébergés et systèmes numériques

La gestion des connaissances personnelles s’étend aux outils Obsidian, Logseq, DokuWiki, Zettelkasten et PARA — le bon choix dépend de votre besoin : un graphe de notes local, un wiki auto-hébergé ou un flux de travail basé sur les outliners.

Claude, OpenClaw et la fin du prix unique pour les agents

La faille discrète qui a alimenté une vague d’expérimentation d’agents est désormais close.

Démarrage rapide de Vane (Perplexica 2.0) avec Ollama et llama.cpp

Vane est l’une des entrées les plus pragmatiques dans le domaine de la « recherche IA avec citations » : un moteur de réponse auto-hébergé qui combine la récupération web en direct avec des LLM locaux ou cloud, tout en gardant toute la pile sous votre contrôle.

TGI - Text Generation Inference - Installation, Configuration, Dépannage

Text Generation Inference (TGI) possède une énergie très particulière. Ce n’est pas le nouveau venu de la rue de l’inférence, mais c’est celui qui a déjà appris comment la production peut se briser -

Benchmarks LLM avec 16 Go de VRAM et llama.cpp (vitesse et contexte)

Voici une comparaison de la vitesse de plusieurs LLMs (modèles de langage grand) fonctionnant sur un GPU avec 16 Go de VRAM, et le choix du meilleur pour l’auto-hébergement.

Prix et disponibilité de la RTX 5090 en Australie : la réalité de mars 2026

L’Australie dispose de stock pour la RTX 5090. À peine. Et si vous en trouvez une, vous paierez une prime qui semble déconnectée de la réalité.

Accès distant à Ollama via Tailscale ou WireGuard, sans ports publics.

Ollama est à son meilleur lorsque l’on le traite comme un démon local : la CLI et vos applications communiquent avec une API HTTP en boucle locale (loopback), et le reste du réseau ignore son existence.

Ollama dans Docker Compose avec GPU et stockage persistant des modèles

Ollama fonctionne parfaitement sur du matériel nu. Cela devient encore plus intéressant lorsque vous le traitez comme un service : une extrémité stable, des versions figées, un stockage persistant et une GPU qui est soit disponible, soit non.

Ollama derrière un proxy inversé avec Caddy ou Nginx pour le streaming HTTPS

Exécuter Ollama derrière un proxy inversé est le moyen le plus simple d’obtenir HTTPS, un contrôle d’accès facultatif et un comportement de streaming prévisible.

Embeddings de texte pour RAG et recherche - Python, Ollama, API compatibles OpenAI

Si vous travaillez sur la génération augmentée par récupération (RAG), cette section explique les incorporations de texte (text embeddings) en termes simples : ce qu’elles sont, comment elles s’intègrent dans la recherche et la récupération, et comment appeler deux configurations locales courantes depuis Python en utilisant Ollama ou une API HTTP compatible OpenAI (comme le font de nombreux serveurs basés sur llama.cpp).

IndexNow expliqué : notifier les moteurs de recherche lors de la publication

Les sites statiques et les blogs changent à chaque déploiement. Les moteurs de recherche prenant en charge IndexNow peuvent prendre connaissance de ces changements sans attendre le prochain cycle de crawl aveugle.

Démarrage rapide de SGLang : Installation, configuration et déploiement de LLM via l’API OpenAI

SGLang est un framework de service haute performance pour les grands modèles de langage et les modèles multimodaux, conçu pour fournir une inférence à faible latence et à haut débit sur tout, d’une seule GPU à des clusters distribués.