Performance

Desempenho de LLMs em 2026: Benchmarks, Gargalos e Otimização

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Estratégias de Cache do Hugo para Desempenho

Estratégias de cache do Hugo são essenciais para maximizar o desempenho do seu gerador de sites estáticos. Embora o Hugo gere arquivos estáticos que são inerentemente rápidos, a implementação de cache adequado em várias camadas pode melhorar drasticamente os tempos de compilação, reduzir a carga do servidor e melhorar a experiência do usuário.

NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Comparação de Desempenho do Ollama

Descobri alguns testes de desempenho interessantes do GPT-OSS 120b rodando no Ollama em três plataformas diferentes: NVIDIA DGX Spark, Mac Studio e RTX 4080. O modelo GPT-OSS 120b da biblioteca Ollama pesa 65 GB, o que significa que ele não cabe na VRAM de 16 GB de uma RTX 4080 (ou na mais recente RTX 5080).

Problemas de Saída Estruturada no Ollama GPT-OSS

Os modelos GPT-OSS da Ollama apresentam problemas recorrentes no manuseio de saída estruturada, especialmente quando utilizados com frameworks como LangChain, SDK da OpenAI, vllm e outros.

Alocação de memória e agendamento de modelos na nova versão do Ollama - v0.12.1

Aqui estou comparando quanto VRAM a nova versão do Ollama alocava para o modelo em relação à versão anterior do Ollama. A nova versão é pior.

Desempenho de LLM e Faixas PCIe: Considerações Essenciais

Como as Pistas PCIe Afetam o Desempenho de LLM? Depende da tarefa. Para treinamento e inferência multi-GPU, a queda de desempenho é significativa.

Teste: Como o Ollama está utilizando os núcleos de desempenho e eficientes da CPU Intel

Tenho uma teoria para testar: se utilizar todos os núcleos de uma CPU Intel aumentaria a velocidade dos LLMs? Isso tem me incomodado: o novo modelo gemma3 de 27 bilhões (gemma3:27b, 17GB no Ollama) não cabe nos 16GB de VRAM da minha GPU e está rodando parcialmente na CPU.

Este guia explica como o Ollama lida com solicitações paralelas (concorrência, filas e limites de recursos) e como ajustá-lo usando a variável de ambiente OLLAMA_NUM_PARALLEL (e outros parâmetros relacionados).

Não foi muito tempo atrás que foi lançado. Vamos dar uma olhada e testar como o Mistral Small se compara a outros LLMs.

Comparando a velocidade de predição de várias versões de LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (código aberto) em CPU e GPU.