LLM - Page 6 - Rost Glukhov | Sitio personal y blog técnico

Problemas de salida estructurada de Ollama GPT-OSS

Los modelos GPT-OSS de Ollama tienen problemas recurrentes al manejar salidas estructuradas, especialmente cuando se usan con marcos como LangChain, OpenAI SDK, vllm y otros.

Comparación de salida estructurada entre proveedores populares de LLM - OpenAI, Gemini, Anthropic, Mistral y AWS Bedrock

Aquí tienes una comparación de soporte lado a lado de salida estructurada (obtener JSON confiable) entre proveedores populares de LLM, más ejemplos mínimos en Python

Limitar LLMs con salida estructurada: Ollama, Qwen3 & Python o Go

Modelos de Lenguaje Grande (LLMs) son poderosos, pero en producción raramente queremos párrafos libres. En su lugar, queremos datos predecibles: atributos, hechos u objetos estructurados que puedas alimentar en una aplicación. Eso es Salida Estructurada de LLM.

Asignación de memoria y programación del modelo en la nueva versión de Ollama - v0.12.1

Aquí estoy comparando cómo mucho VRAM la nueva versión de Ollama asigna al modelo con la versión anterior de Ollama. La nueva versión es peor.

Enshittificación de Ollama - Las primeras señales

Ollama ha pasado rápidamente a ser una de las herramientas más populares para ejecutar modelos de lenguaje grande (LLM) en local.
Su CLI simple y su gestión de modelos optimizada han convertido a Ollama en una opción preferida para desarrolladores que desean trabajar con modelos de IA fuera de la nube.

Interfaz de chat para instancias locales de Ollama

Locally hosted Ollama permite ejecutar modelos de lenguaje grandes en tu propia máquina, pero usarlo desde la línea de comandos no es muy amigable para el usuario. Aquí hay varios proyectos de código abierto que ofrecen interfaces estilo ChatGPT que se conectan a un Ollama local.

NVIDIA DGX Spark: el nuevo pequeño superordenador de IA

Nvidia está a punto de lanzar NVIDIA DGX Spark, un pequeño superordenador de IA basado en la arquitectura Blackwell, con más de 128 GB de memoria unificada y un rendimiento de IA de 1 PFLOPS. Un dispositivo excelente para ejecutar LLMs.

Protocolo de contexto del modelo (MCP), y notas sobre la implementación del servidor MCP en Go

Aquí tenemos una descripción del Protocolo de Contexto del Modelo (MCP), notas breves sobre cómo implementar un servidor MCP en Go, incluyendo la estructura de mensajes y las especificaciones del protocolo.

Reordenamiento de documentos con Ollama y el modelo Qwen3 Reranker - en Go

Dado que Ollama estándar no tiene una API de reranking directa, necesitará implementar reranking usando Qwen3 Reranker en GO generando embeddings para pares de consulta-documento y puntuándolos.

Comparación de la calidad de la traducción de páginas en Hugo - LLMs en Ollama

En este test estoy comparando cómo diferentes LLMs alojados en Ollama traducen una página Hugo en inglés al alemán.

Reordenamiento de textos con Ollama y el LLM de incrustaciones Qwen3 - en Go

Este pequeño ejemplo de código Go para reranking que llama a Ollama para generar embeddings se utiliza para la consulta y para cada documento candidato, y luego ordena de forma descendente por similitud coseno.

Modelos de Embedding y Reranker de Qwen3 en Ollama: Rendimiento de vanguardia

Los modelos Qwen3 Embedding y Reranker son los últimos lanzamientos de la familia Qwen, diseñados específicamente para tareas avanzadas de incrustación de texto, recuperación y reordenamiento.

Rendimiento de LLM y canales PCIe: Consideraciones clave

¿Cómo afectan los canales PCIe al rendimiento de los LLM?? Dependiendo de la tarea. Para el entrenamiento y la inferencia con múltiples GPUs, la caída de rendimiento es significativa.

Convierte contenido HTML a Markdown utilizando LLM y Ollama

En la biblioteca de modelos de Ollama hay modelos que pueden convertir contenido HTML a Markdown, lo cual es útil para tareas de conversión de contenido. Esta guía forma parte de nuestro Herramientas de Documentación en 2026: Markdown, LaTeX, PDF y Flujos de Trabajo de Impresión hub.

Búsqueda, Búsqueda Profunda e Investigación Profunda en 2026

Search es lo mejor para recuperar información rápida y directa utilizando palabras clave.
Deep Search destaca por comprender el contexto y la intención, ofreciendo resultados más relevantes y completos para consultas complejas.

Comparación de asistentes de codificación con IA

Enumeraré aquí algunas herramientas de codificación asistidas por IA y Asistentes de Codificación con IA y sus aspectos positivos.