Rost Glukhov | Site personnel et blog technique

Notes éternelles : rédigez des notes qui s’enrichissent avec le temps

La plupart des notes techniques sont rédigées une fois puis oubliées. Vous capturez quelque chose lors d’une session de débogage, vous le collez quelque part, et vous le retrouvez deux ans plus tard sans aucun contexte expliquant pourquoi cela comptait.

Méthode PARA pour les ingénieurs : organiser la connaissance par l’action

Organiser ses notes par sujet semble logique, jusqu’à ce que vous ayez des notes sur PostgreSQL réparties dans cinq dossiers différents et que vous ne puissiez plus trouver celle qui est pertinente pour le problème du jour.

Jardins numériques : faire pousser le savoir plutôt que de simplement le publier

Le modèle dominant pour publier des connaissances en ligne n’a guère changé depuis le début des années 2000 : écrire quelque chose, le peaufiner, le publier, puis passer à autre chose.

Routage des modèles : cessez d’utiliser un seul modèle pour tout

Exécuter un modèle de 70 milliards de paramètres pour résumer un e-mail de 200 mots est un gaspillage. Utiliser un modèle de 3 milliards de paramètres pour passer en revue du code en production est négligent. La plupart des systèmes se situent quelque part entre les deux — et c’est là qu’intervient le routage de modèles.

Optimisation des coûts pour les systèmes LLM : où va réellement l’argent

Les coûts des LLM évoluent de manière linéaire avec l’utilisation. Un système traitant 10 000 requêtes par jour à 0,01 $ par requête coûte 100 $ par jour, soit 365 $ par an. À l’échelle de l’entreprise, cela représente plus de 10 000 $.

Les garde-fous des LLM en pratique : ce qui fonctionne réellement

Les LLM sont imprévisibles. Ils hallucinent, fuient des données, génèrent du contenu nuisible ou refusent des demandes légitimes. Les garde-fous contraignent le comportement du modèle sans sacrifier ses capacités.

Conception de systèmes multi-modèles : quand un seul modèle ne suffit plus

Les systèmes à modèle unique sont simples. Les systèmes multi-modèles sont puissants. Le défi ne réside pas dans le choix des modèles, mais dans la conception de l’architecture qui les orchestre.

Systèmes de mémoire dans les assistants IA

La mémoire transforme les assistants d’entités réactives en entités persistantes, mais c’est aussi là que de nombreux systèmes pourrissent silencieusement. Les enquêtes soutiennent que la distinction entre mémoire à court terme et à long terme n’est plus suffisante pour la mémoire des agents modernes ; les SDKs OpenAI et LangGraph pointent vers une pile plus simple — mémoire de travail, état durable et récupération.

Architecture des assistants IA : LLM, mémoire, outils, routage, observabilité

Un assistant IA de production n’est pas « un LLM avec un prompt ». C’est un système qui accepte l’intention, maintient un état, décide quand récupérer des informations ou agir, et expose suffisamment de détails d’exécution pour déboguer les échecs.

L’IA pour la gestion des connaissances : des flux de travail réels qui résistent

L’IA ne remplace pas la gestion des connaissances ; elle en modifie la forme, tant pour les individus que pour les équipes.

Zettelkasten pour les développeurs : une méthode pratique qui fonctionne

Les développeurs ne souffrent généralement pas d’un manque d’informations. Ils souffrent de leur excès.

OpenClaw vs Agent Hermes : Étoiles, Téléchargements et Utilisations en 2026

Les frameworks d’agents IA open-source connaissent une popularité explosive sur GitHub. Deux projets au cœur de l’écosystème des systèmes IA auto-hébergés — OpenClaw et Hermes Agent — ont pris une telle avance que le reste du domaine se bat pour une lointaine troisième place.

Qwen 3.6 27B et 35B MTP par rapport au standard sur GPU 16 Go

J’ai testé les performances de la décodage spéculatif (Multi-Token Prediction, MTP) sur les modèles Qwen 3.6 27B et 35B avec une RTX 4080 dotée de 16 Go de VRAM.

Charger tous les modèles du routeur llama.cpp sans redémarrage

Mode routeur de llama.cpp est l’un des changements les plus utiles apportés à llama-server depuis des années. Il offre enfin aux opérateurs de LLM locaux une expérience de gestion des modèles proche de celle attendue d’Ollama, tout en conservant les performances brutes et le contrôle de bas niveau qui rendent llama.cpp intéressant à utiliser en premier lieu.

Récupération vs Représentation dans les Systèmes de Connaissance

La plupart des systèmes de connaissances modernes optimisent la récupération (retrieval), et cela est compréhensible. La recherche est visible, facile à démontrer et semble magique lorsqu’elle fonctionne. Tapez une question, obtenez une réponse.

LLM Wiki - Savoir compilé que le RAG ne peut remplacer

Le principe est simple : les connaissances compilées sont plus réutilisables que les fragments récupérés. RAG est devenu la réponse par défaut à une question simple : comment donner à un LLM (modèle de langage) l’accès à des connaissances externes ?

S'abonner