LLM - Rost Glukhov | Sitio personal y blog técnico

Arquitectura de LLM: Diseño de sistemas para IA en producción

Design decisions for production LLM systems — routing, cost, guardrails, and multi-model orchestration. The layer between running models and building reliable AI applications.

Diseño de sistemas multimodelos: cuándo un solo modelo no es suficiente

Los sistemas de un solo modelo son simples. Los sistemas de múltiples modelos son potentes. El desafío no consiste en elegir modelos, sino en diseñar la arquitectura que los orqueste.

Enrutamiento de modelos: deja de usar un solo modelo para todo

Ejecutar un modelo de 70 mil millones de parámetros para resumir un correo electrónico de 200 palabras es un desperdicio. Ejecutar un modelo de 3 mil millones de parámetros para revisar código en producción es imprudente. La mayoría de los sistemas se encuentran en algún punto intermedio, y ahí es donde entra la enrutación de modelos.

Guardrails para LLMs en la práctica: qué funciona realmente

Los modelos de lenguaje grande (LLM) son impredecibles. Alucinan, filtran datos, generan contenido dañino o rechazan solicitudes legítimas. Los mecanismos de protección (guardrails) restringen el comportamiento del modelo sin sacrificar su capacidad.

Optimización de costos para sistemas de LLM: dónde se invierte realmente el dinero

Los costos de los LLM escalan de forma lineal con el uso. Un sistema que procesa 10.000 solicitudes al día a $0,01 por solicitud cuesta $100 diarios — $365 al año. A escala empresarial, eso supera los $10.000.

La memoria transforma a los asistentes de reactivos a persistentes, pero también es donde muchos sistemas se deterioran silenciosamente. Las encuestas argumentan que la división entre memoria a corto y largo plazo ya no es suficiente para la memoria de los agentes modernos; los SDK de OpenAI y LangGraph apuntan a una arquitectura más simple: memoria de trabajo, estado duradero y recuperación.

Arquitectura de Asistente de IA: LLM, Memoria, Herramientas, Enrutamiento, Observabilidad

Un asistente de IA en producción no es “un LLM con un prompt”. Es un sistema que acepta la intención del usuario, mantiene el estado, decide cuándo recuperar información o actuar, y expone suficiente detalle en tiempo de ejecución para depurar fallos.

IA para la gestión del conocimiento: flujos de trabajo reales que funcionan

La IA no está reemplazando la gestión del conocimiento; está cambiando su forma tanto para individuos como para equipos.

OpenClaw vs. Hermes Agent: Estrellas, Descargas y Uso en 2026

Los frameworks de agentes de IA de código abierto están experimentando un aumento explosivo en popularidad en GitHub. Dos proyectos en el centro del ecosistema de sistemas de IA autoalojados — OpenClaw y Hermes Agent — han avanzado tanto que el resto del campo lucha por un distante tercer lugar.

Qwen 3.6 27B y 35B MTP frente a estándar en GPU de 16 GB

Probé el rendimiento de la decodificación especulativa (Predicción Multitoken, MTP) en Qwen 3.6 27B y 35B en una RTX 4080 con 16 GB de VRAM.

Descargar todos los modelos del enrutador de llama.cpp sin reiniciar

Modo router de llama.cpp es uno de los cambios más útiles en llama-server en años. Finalmente ofrece a los operadores de LLM locales una experiencia de gestión de modelos cercana a la que las personas esperan de Ollama, manteniendo al mismo tiempo el rendimiento bruto y el control a bajo nivel que hacen que llama.cpp valga la pena usarlo en primer lugar.

LLM Wiki: Conocimiento compilado que el RAG no puede reemplazar

La premisa es simple: el conocimiento compilado es más reutilizable que los fragmentos recuperados. RAG se convirtió en la respuesta predeterminada a una pregunta directa: ¿cómo proporciono a un LLM acceso a conocimiento externo?

Validación de salida estructurada de LLM en Python que es sólida

La mayoría de los tutoriales sobre “salida estructurada” de los LLM son poco serios. Te enseñan a pedir JSON amablemente y luego a esperar que el modelo se comporte. Eso no es validación. Eso es optimismo con llaves.

Referencia de parámetros de inferencia de LLMs agénticos para Qwen y Gemma

Esta página es una referencia práctica para la afinación de inferencia de LLMs agentivos (temperatura, top_p, top_k, penalizaciones y cómo interactúan en flujos de trabajo multietapa y con uso intensivo de herramientas).

Control de voz de Hermes desde tu teléfono

Ya puedes chatear con Hermes Agent desde tu teléfono usando texto. Ahora quieres hablar con él directamente y recibir respuestas habladas. Eso suele ser la mejor opción, especialmente si ya usas Hermes como asistente autohospedado persistente. Escribir instrucciones largas en una pantalla pequeña es lento y propenso a errores.

Kanban en Hermes Agent para flujos de trabajo de LLMs autoalojados

El agente Hermes incluye un tablero estilo Kanban y el Hermes Gateway, que pueden saturar su LLM autoalojado si se asignan demasiadas tareas a la vez.