Performance
Estratégias de Cache do Hugo para Desempenho
Otimize o desenvolvimento e execução de sites Hugo
Estratégias de cache do Hugo são essenciais para maximizar o desempenho do seu gerador de sites estáticos. Embora o Hugo gere arquivos estáticos que são inerentemente rápidos, a implementação de cache adequado em várias camadas pode melhorar drasticamente os tempos de compilação, reduzir a carga do servidor e melhorar a experiência do usuário.
NVIDIA DGX Spark vs. Mac Studio vs. RTX-4080: Comparação de Desempenho do Ollama
Benchmarks do GPT-OSS 120b em três plataformas de IA
Descobri alguns testes de desempenho interessantes do GPT-OSS 120b rodando no Ollama em três plataformas diferentes: NVIDIA DGX Spark, Mac Studio e RTX 4080. O modelo GPT-OSS 120b da biblioteca Ollama pesa 65 GB, o que significa que ele não cabe na VRAM de 16 GB de uma RTX 4080 (ou na mais recente RTX 5080).
Problemas de Saída Estruturada no Ollama GPT-OSS
Não é muito agradável.
Os modelos GPT-OSS da Ollama apresentam problemas recorrentes no manuseio de saída estruturada, especialmente quando utilizados com frameworks como LangChain, SDK da OpenAI, vllm e outros.
Alocação de memória e agendamento de modelos na nova versão do Ollama - v0.12.1
Meu próprio teste de agendamento de modelos Ollama
Aqui estou comparando quanto VRAM a nova versão do Ollama alocava para o modelo em relação à versão anterior do Ollama. A nova versão é pior.
Desempenho de LLM e Faixas PCIe: Considerações Essenciais
Pensando em instalar uma segunda GPU para LLMs?
Como as Pistas PCIe Afetam o Desempenho de LLM? Depende da tarefa. Para treinamento e inferência multi-GPU, a queda de desempenho é significativa.
Teste: Como o Ollama está utilizando os núcleos de desempenho e eficientes da CPU Intel
Ollama em CPUs Intel: núcleos eficientes versus núcleos de desempenho
Tenho uma teoria para testar: se utilizar todos os núcleos de uma CPU Intel aumentaria a velocidade dos LLMs? Isso tem me incomodado: o novo modelo gemma3 de 27 bilhões (gemma3:27b, 17GB no Ollama) não cabe nos 16GB de VRAM da minha GPU e está rodando parcialmente na CPU.
Como o Ollama Lida com Solicitações Paralelas
Compreenda a concorrência e o enfileiramento no Ollama, e como ajustar OLLAMA_NUM_PARALLEL para solicitações paralelas estáveis.
Este guia explica como o Ollama lida com solicitações paralelas (concorrência, filas e limites de recursos) e como ajustá-lo usando a variável de ambiente OLLAMA_NUM_PARALLEL (e outros parâmetros relacionados).
Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 e Phi - Teste de LLM
Próxima rodada de testes de LLM
Não foi muito tempo atrás que foi lançado. Vamos dar uma olhada e testar como o Mistral Small se compara a outros LLMs.
Teste de Velocidade de Grandes Modelos de Linguagem
Vamos testar a velocidade dos LLMs em GPU versus CPU.
Comparando a velocidade de predição de várias versões de LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (código aberto) em CPU e GPU.