Ollama

Modelos GPT-OSS do Ollama têm problemas recorrentes ao lidar com saídas estruturadas, especialmente quando usados com frameworks como LangChain, OpenAI SDK, vllm e outros.

Limitando LLMs com Saída Estruturada: Ollama, Qwen3 & Python ou Go

Grandes Modelos de Linguagem (LLMs) são poderosos, mas, em produção, raramente queremos parágrafos livres. Em vez disso, queremos dados previsíveis: atributos, fatos ou objetos estruturados que você pode alimentar em um aplicativo. Isso é Saída Estruturada de LLM.

Modelo de escalonamento de alocação de memória na nova versão do Ollama - v0.12.1

Aqui estou comparando quanto de VRAM a nova versão do Ollama alocando para o modelo com a versão anterior do Ollama. A nova versão é pior.

Enshittificação do Ollama - Os Primeiros Sinais

Ollama tornou-se rapidamente uma das ferramentas mais populares para executar LLMs localmente.
Sua CLI simples e gestão de modelos aprimorada tornaram-na uma opção preferida para desenvolvedores que desejam trabalhar com modelos de IA fora da nuvem.
Mas, assim como com muitas plataformas promissoras, já existem sinais de Enshittification:

Chat UIs para Instâncias Locais do Ollama

O Ollama hospedado localmente permite executar modelos de linguagem grandes em sua própria máquina, mas usá-lo via linha de comando não é amigável para o usuário.
Aqui estão vários projetos de código aberto que fornecem interfaces do estilo ChatGPT que se conectam a um Ollama local.

Reranking de documentos com Ollama e modelo Qwen3 Reranker - em Go

Como o Ollama padrão não possui uma API de rerank direta, você precisará implementar reranking usando o Qwen3 Reranker em GO gerando embeddings para pares de consulta-documento e classificando-os.

Comparação da qualidade da tradução de páginas do Hugo - LLMs no Ollama

Neste teste, estou comparando como diferentes LLMs hospedados no Ollama traduzem páginas Hugo do inglês para o alemão. Três páginas que testei estavam sobre temas diferentes, tinham alguma marcação markdown com alguma estrutura: cabeçalhos, listas, tabelas, links, etc.

Reranking de textos com Ollama e Qwen3 Embedding LLM - em Go

Este pequeno exemplo de código Go para reranking está chamando o Ollama para gerar embeddings para a consulta e para cada documento candidato, em seguida, classificando em ordem decrescente pela similaridade do cosseno.

Modelos de Embedding e Reranker do Qwen3 no Ollama: Desempenho de Estado da Arte

Os modelos Qwen3 Embedding e Reranker são as últimas liberações da família Qwen, especificamente projetados para tarefas avançadas de embedding de texto, recuperação e reclassificação.

Desempenho de LLM e Canais PCIe: Considerações Importantes

Como os canais PCIe afetam o desempenho dos LLM? Dependendo da tarefa. Para treinamento e inferência com múltiplos GPUs - a queda de desempenho é significativa.

Converta conteúdo HTML em Markdown usando LLM e Ollama

Na biblioteca de modelos do Ollama existem modelos capazes de converter conteúdo HTML em Markdown, o que é útil para tarefas de conversão de conteúdo.

Comparação de assistentes de codificação com IA

Listarei aqui algumas ferramentas de codificação assistidas por IA e Assistentes de Codificação com IA e seus lados positivos.

Teste: Como a Ollama está utilizando o desempenho da CPU e os núcleos eficientes da Intel

Tenho uma teoria para testar – se utilizar todos os núcleos de um processador Intel aumentaria a velocidade dos LLMs? Estou incomodado com o fato de que o novo modelo gemma3 27 bit (gemma3:27b, 17GB no ollama) não está cabendo na VRAM de 16GB da minha GPU, e está sendo executado parcialmente no CPU.

Como o Ollama lida com solicitações paralelas

Quando o servidor Ollama recebe duas solicitações ao mesmo tempo, seu comportamento depende da sua configuração e dos recursos do sistema disponíveis.

Primeira geração de modelos de raciocínio da DeepSeek com desempenho comparável ao de OpenAI-o1, incluindo seis modelos densos destilados a partir do DeepSeek-R1 baseados em Llama e Qwen.

Aqui está a lista e exemplos dos comandos mais úteis do Ollama (folha de dicas dos comandos do Ollama) Compilei há algum tempo, última atualização em janeiro de 2026. Espero que também seja útil para você useful to you.

Ollama

Problemas de Saída Estruturada do Ollama GPT-OSS

Limitando LLMs com Saída Estruturada: Ollama, Qwen3 & Python ou Go

Modelo de escalonamento de alocação de memória na nova versão do Ollama - v0.12.1

Enshittificação do Ollama - Os Primeiros Sinais

Chat UIs para Instâncias Locais do Ollama

Reranking de documentos com Ollama e modelo Qwen3 Reranker - em Go

Comparação da qualidade da tradução de páginas do Hugo - LLMs no Ollama

Reranking de textos com Ollama e Qwen3 Embedding LLM - em Go

Modelos de Embedding e Reranker do Qwen3 no Ollama: Desempenho de Estado da Arte

Desempenho de LLM e Canais PCIe: Considerações Importantes

Converta conteúdo HTML em Markdown usando LLM e Ollama

Comparação de assistentes de codificação com IA

Teste: Como a Ollama está utilizando o desempenho da CPU e os núcleos eficientes da Intel

Como o Ollama lida com solicitações paralelas

Testando o Deepseek-R1 no Ollama

Guia Rápido do Ollama - comandos mais úteis - atualização de 2026