AI - Page 3 - Rost Glukhov | Site pessoal e blog técnico

A Ascensão e Queda do OpenClaw — Cronologia e as Verdadeiras Razões por Trás do Colapso

O OpenClaw não fracassou como produto. Ele perdeu seu combustível.

Modo Router do Llama-Server - Comutação Dinâmica de Modelos Sem Reinícios

Por muito tempo, o llama.cpp teve uma limitação gritante: era possível servir apenas um modelo por processo, e a troca exigia uma reinicialização.

Habilidades do Claude e SKILL.md para Desenvolvedores: VS Code, JetBrains e Cursor

A maioria das equipes usa as Skills do Claude de uma das duas maneiras erradas. Ou transformam o SKILL.md em um depósito de tudo, ou nunca deixam de usar prompts gigantes copiados e colados.

Habilidades do Assistente de IA Hermes para Configurações de Produção

O assistente de IA Hermes, documentado oficialmente como Hermes Agent, não se posiciona como um simples wrapper de chat.

Ecossistema de Habilidades do OpenClaw e Escolhas Práticas para Produção

O OpenClaw possui dois tipos de extensões, e é fácil confundi-los.

Plugins estendem o tempo de execução. Skills (habilidades) estendem o comportamento do agente.

Plugins OpenClaw — Guia do Ecossistema e Escolhas Práticas

Este artigo trata dos plugins do OpenClaw — pacotes nativos de gateway que adicionam canais, provedores de modelos, ferramentas, voz, memória, mídia, pesquisa web e outras superfícies de tempo de execução.

Padrões de Configuração em Produção do OpenClaw com Plugins e Skills

OpenClaw parece simples em demonstrações. Em produção, ele se torna um sistema.

Claude, OpenClaw e o fim da cobrança plana para agentes

A brecha silenciosa que impulsionou uma onda de experimentação com agentes agora está fechada.

Início Rápido do Vane (Perplexica 2.0) com Ollama e llama.cpp

Vane é uma das entradas mais pragmáticas no espaço de “busca de IA com citações”: um motor de respostas auto-hospedado que combina recuperação da web em tempo real com LLMs locais ou na nuvem, mantendo toda a pilha sob seu controle.

Instalação e configuração do Claude Code para Ollama, llama.cpp, preços

O Claude Code não é um autocompletar com melhor marketing. É uma ferramenta de codificação agêntica: lê sua base de código, edita arquivos, executa comandos e integra-se às suas ferramentas de desenvolvimento.

Assistente de IA Hermes - Instalação, Configuração, Fluxo de Trabalho e Solução de Problemas

O Hermes Agent é um assistente de IA auto-hospedado e agnóstico em relação ao modelo, que é executado em uma máquina local ou em um VPS de baixo custo, opera por meio de interfaces de terminal e mensagens e melhora com o tempo, transformando tarefas repetidas em habilidades reutilizáveis.

TGI – Text Generation Inference – Instalação, Configuração e Solução de Problemas

A Inferência de Geração de Texto (TGI) tem uma energia muito específica. Não é o mais novo na rua da inferência, mas é aquele que já aprendeu como a produção quebra -

Benchmarks de LLMs com 16 GB de VRAM usando llama.cpp (velocidade e contexto)

Aqui estou comparando a velocidade de vários LLMs rodando em GPU com 16GB de VRAM e escolhendo o melhor para auto-hospedagem.

Ollama no Docker Compose com GPU e Armazenamento Persistente de Modelos

Ollama funciona muito bem em metal nu. Torna-se ainda mais interessante quando tratado como um serviço: um endpoint estável, versões fixas, armazenamento persistente e uma GPU que está disponível ou não.

Ollama atrás de um proxy reverso com Caddy ou Nginx para streaming HTTPS

Executar o Ollama atrás de um proxy reverso é a maneira mais simples de obter HTTPS, controle de acesso opcional e comportamento de streaming previsível.

SGLang QuickStart: Instale, Configure e Execute LLMs via API OpenAI

O SGLang é um framework de serviço de alto desempenho para grandes modelos de linguagem e modelos multimodais, construído para fornecer inferência de baixa latência e alto throughput, desde uma única GPU até clusters distribuídos.