Chunking es el hiperparámetro más subestimado en Generación Aumentada por Recuperación (RAG):
silenciosamente determina lo que ve tu LLM,
cuán costosa se vuelve la ingesta,
y cuánto del contexto de la LLM consumes por respuesta.
Controla los datos y los modelos con LLMs autohospedados
Autohospedaje de LLMs mantiene los datos, modelos e inferencia bajo su control: un camino práctico hacia la soberanía en IA para equipos, empresas y naciones.
Prueba de velocidad de LLM en RTX 4080 con 16 GB de VRAM
Ejecutar modelos de lenguaje grandes localmente te brinda privacidad, capacidad para trabajar sin conexión y cero costos de API.
Este benchmark revela exactamente lo que se puede esperar de 14 modelos populares
LLMs en Ollama en una RTX 4080.
Verificación de precios de GPU y RAM en enero de 2025
Hoy nos estamos enfocando en las GPUs de consumo de alto nivel y módulos de RAM.
Específicamente, me estoy enfocando en
precios de RTX-5080 y RTX-5090, y 32GB (2x16GB) DDR5 6000.
Precios reales en AUD de minoristas australianos ahora
El
NVIDIA DGX Spark
(GB10 Grace Blackwell) ya está
disponible en Australia
en los principales minoristas de PC con stock local.
Si has estado siguiendo los
precios y disponibilidad globales del DGX Spark,
te interesará saber que los precios en Australia oscilan entre $6.249 y $7.999 AUD, dependiendo de la configuración de almacenamiento y del minorista.
Después de instalar automáticamente un nuevo núcleo, Ubuntu 24.04 ha perdido la conexión de red ethernet. Este problema frustrante ocurrió de nuevo para mí, así que estoy documentando la solución aquí para ayudar a otros que enfrenten el mismo problema.
Los precios de la RAM aumentan entre un 163% y un 619% debido a la escasez provocada por la demanda de IA.
El mercado de la memoria está experimentando una volatilidad de precios sin precedentes a finales de 2025, con un aumento dramático en los precios de la RAM en todos los segmentos.
Despliegue de IA empresarial en hardware económico con modelos abiertos
La democratización de la IA está aquí.
Con modelos de lenguaje de gran tamaño (LLM) de código abierto como Llama, Mistral y Qwen rivalizando ahora con los modelos propietarios, los equipos pueden construir una infraestructura de IA utilizando hardware de consumo, reduciendo drásticamente los costos mientras mantienen el control total sobre la privacidad de los datos y el despliegue.
Resultados de benchmarks de GPT-OSS 120b en tres plataformas de IA
Investigué algunos interesantes tests de rendimiento del modelo GPT-OSS 120b ejecutándose en Ollama en tres plataformas diferentes: NVIDIA DGX Spark, Mac Studio y RTX 4080. El modelo GPT-OSS 120b del repositorio Ollama tiene un tamaño de 65GB, lo que significa que no cabe en los 16GB de VRAM de un RTX 4080 (ni en el más reciente RTX 5080).
Referencia rápida para comandos de Docker Model Runner
Docker Model Runner (DMR) es la solución oficial de Docker para ejecutar modelos de IA localmente, introducida en abril de 2025. Esta guía rápida proporciona una referencia rápida para todos los comandos esenciales, configuraciones y mejores prácticas.