Problemas de Saída Estruturada do Ollama GPT-OSS
Não muito agradável.
Modelos GPT-OSS do Ollama têm problemas recorrentes ao lidar com saídas estruturadas, especialmente quando usados com frameworks como LangChain, OpenAI SDK, vllm e outros.
Não muito agradável.
Modelos GPT-OSS do Ollama têm problemas recorrentes ao lidar com saídas estruturadas, especialmente quando usados com frameworks como LangChain, OpenAI SDK, vllm e outros.
Alguns modos de obter saída estruturada do Ollama
Grandes Modelos de Linguagem (LLMs) são poderosos, mas, em produção, raramente queremos parágrafos livres. Em vez disso, queremos dados previsíveis: atributos, fatos ou objetos estruturados que você pode alimentar em um aplicativo. Isso é Saída Estruturada de LLM.
Meu próprio teste de escalonamento do modelo ollama ```
Aqui estou comparando quanto de VRAM a nova versão do Ollama alocando para o modelo com a versão anterior do Ollama. A nova versão é pior.
Minha visão sobre o estado atual do desenvolvimento do Ollama
Ollama tornou-se rapidamente uma das ferramentas mais populares para executar LLMs localmente.
Sua CLI simples e gestão de modelos aprimorada tornaram-na uma opção preferida para desenvolvedores que desejam trabalhar com modelos de IA fora da nuvem.
Mas, assim como com muitas plataformas promissoras, já existem sinais de Enshittification:
Visão geral rápida das interfaces de usuário mais proeminentes para Ollama em 2025
O Ollama hospedado localmente permite executar modelos de linguagem grandes em sua própria máquina, mas usá-lo via linha de comando não é amigável para o usuário.
Aqui estão vários projetos de código aberto que fornecem interfaces do estilo ChatGPT que se conectam a um Ollama local.
Implementando RAG? Aqui estão alguns trechos de código em Go - 2...
Como o Ollama padrão não possui uma API de rerank direta, você precisará implementar reranking usando o Qwen3 Reranker em GO gerando embeddings para pares de consulta-documento e classificando-os.
qwen3 8b, 14b e 30b, devstral 24b, mistral small 24b
Neste teste, estou comparando como diferentes LLMs hospedados no Ollama traduzem páginas Hugo do inglês para o alemão. Três páginas que testei estavam sobre temas diferentes, tinham alguma marcação markdown com alguma estrutura: cabeçalhos, listas, tabelas, links, etc.
Implementando RAG? Aqui estão alguns trechos de código em Golang.
Este pequeno exemplo de código Go para reranking está chamando o Ollama para gerar embeddings para a consulta e para cada documento candidato, em seguida, classificando em ordem decrescente pela similaridade do cosseno.
Novos LLMs incríveis disponíveis no Ollama
Os modelos Qwen3 Embedding e Reranker são as últimas liberações da família Qwen, especificamente projetados para tarefas avançadas de embedding de texto, recuperação e reclassificação.
Pensando em instalar uma segunda GPU para LLMs?
Como os canais PCIe afetam o desempenho dos LLM? Dependendo da tarefa. Para treinamento e inferência com múltiplos GPUs - a queda de desempenho é significativa.
LLM para extrair texto de HTML...
Na biblioteca de modelos do Ollama existem modelos capazes de converter conteúdo HTML em Markdown, o que é útil para tarefas de conversão de conteúdo.
Cursor AI vs GitHub Copilot vs Cline AI vs...
Listarei aqui algumas ferramentas de codificação assistidas por IA e Assistentes de Codificação com IA e seus lados positivos.
Ollama em CPU da Intel: núcleos eficientes vs. núcleos de desempenho
Tenho uma teoria para testar – se utilizar todos os núcleos de um processador Intel aumentaria a velocidade dos LLMs? Estou incomodado com o fato de que o novo modelo gemma3 27 bit (gemma3:27b, 17GB no ollama) não está cabendo na VRAM de 16GB da minha GPU, e está sendo executado parcialmente no CPU.
Configurando ollama para execução de solicitações em paralelo.
Quando o servidor Ollama recebe duas solicitações ao mesmo tempo, seu comportamento depende da sua configuração e dos recursos do sistema disponíveis.
Comparando dois modelos deepseek-r1 com dois modelos base
Primeira geração de modelos de raciocínio da DeepSeek com desempenho comparável ao de OpenAI-o1, incluindo seis modelos densos destilados a partir do DeepSeek-R1 baseados em Llama e Qwen.
Compilei esta lista de comandos do Ollama há algum tempo...
Aqui está a lista e exemplos dos comandos mais úteis do Ollama (folha de dicas dos comandos do Ollama) Compilei há algum tempo, última atualização em janeiro de 2026. Espero que também seja útil para você useful to you.