LLM Performance

Qwen 3.6 27B e 35B MTP versus Padrão em GPU de 16GB

Testei o desempenho da Decodificação Especulativa (Previsão de Múltiplos Tokens, MTP) nos modelos Qwen 3.6 27B e 35B em uma RTX 4080 com 16 GB de VRAM.

Validação de Saída Estruturada de LLMs em Python que Funciona

A maioria dos tutoriais sobre “saída estruturada” de LLMs é superficial. Eles ensinam você a pedir JSON educadamente e depois torcer para que o modelo se comporte. Isso não é validação. Isso é otimismo com chaves.

Referência de Parâmetros de Inferência de LLMs Agentes para Qwen e Gemma

Esta página é uma referência prática para ajuste de inferência de LLMs agênicos (temperatura, top_p, top_k, penalidades e como elas interagem em fluxos de trabalho multi-step e com uso intenso de ferramentas).

Benchmarks de LLMs com 16 GB de VRAM usando llama.cpp (velocidade e contexto)

Aqui estou comparando a velocidade de vários LLMs rodando em GPU com 16GB de VRAM e escolhendo o melhor para auto-hospedagem.

Desempenho de LLMs em 2026: Benchmarks, Gargalos e Otimização

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Comparando o desempenho de LLMs no Ollama em GPU com 16GB de VRAM

Executar modelos de linguagem grandes localmente oferece privacidade, capacidade offline e zero custos de API. Este benchmark revela exatamente o que se pode esperar de 14 LMs populares no Ollama com uma RTX 4080.

BAML vs Instructor: Saídas Estruturadas de LLMs

Ao trabalhar com Modelos de Linguagem Grande (LLMs) em produção, obter saídas estruturadas e com segurança de tipos é fundamental. Dois frameworks populares — BAML e Instructor — adotam abordagens diferentes para resolver este problema.

NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Comparação de Desempenho do Ollama

Descobri alguns testes de desempenho interessantes do GPT-OSS 120b rodando no Ollama em três plataformas diferentes: NVIDIA DGX Spark, Mac Studio e RTX 4080. O modelo GPT-OSS 120b da biblioteca Ollama pesa 65 GB, o que significa que ele não cabe na VRAM de 16 GB de uma RTX 4080 (ou na mais recente RTX 5080).

ASICs para LLMs e chips especializados de inferência (por que são importantes)

O futuro da IA não se trata apenas de modelos mais inteligentes. Trata-se também de silício que corresponda à forma como esses modelos são realmente servidos. Hardware especializado para inferência de LLM está seguindo um caminho que remete à migração da mineração de Bitcoin de GPUs para ASICs de propósito construído, mas com restrições mais difíceis, pois os modelos e receitas de precisão continuam evoluindo.

Aqui está uma comparação entre Qwen3:30b e GPT-OSS:20b, com foco na capacidade de seguir instruções e nos parâmetros de desempenho, especificações e velocidade.

Problemas de Saída Estruturada no Ollama GPT-OSS

Os modelos GPT-OSS da Ollama apresentam problemas recorrentes no manuseio de saída estruturada, especialmente quando utilizados com frameworks como LangChain, SDK da OpenAI, vllm e outros.

Comparação de saída estruturada entre provedores populares de LLMs: OpenAI, Gemini, Anthropic, Mistral e AWS Bedrock

Aqui está uma comparação lado a lado do suporte a saída estruturada (obter JSON confiável) entre os principais provedores de LLM, com exemplos mínimos em Python

Alocação de memória e agendamento de modelos na nova versão do Ollama - v0.12.1

Aqui estou comparando quanto VRAM a nova versão do Ollama alocava para o modelo em relação à versão anterior do Ollama. A nova versão é pior.

Desempenho de LLM e Faixas PCIe: Considerações Essenciais

Como as Pistas PCIe Afetam o Desempenho de LLM? Depende da tarefa. Para treinamento e inferência multi-GPU, a queda de desempenho é significativa.

Teste: Como o Ollama está utilizando os núcleos de desempenho e eficientes da CPU Intel

Tenho uma teoria para testar: se utilizar todos os núcleos de uma CPU Intel aumentaria a velocidade dos LLMs? Isso tem me incomodado: o novo modelo gemma3 de 27 bilhões (gemma3:27b, 17GB no Ollama) não cabe nos 16GB de VRAM da minha GPU e está rodando parcialmente na CPU.

Comparando a adequação das GPUs da NVidia para IA

No meio da agitação do mundo moderno, estou comparando as especificações técnicas de diferentes placas adequadas para tarefas de IA (Aprendizado Profundo, Detecção de Objetos e LLMs). No entanto, todas elas são incrivelmente caras.