Rost Glukhov | Sito personale e blog tecnico

Guida rapida a llama.cpp con CLI e Server

Torno sempre su llama.cpp per l’inferenza locale: offre un controllo che Ollama e altri astraggono, e semplicemente funziona. È facile eseguire modelli GGUF in modo interattivo con llama-cli o esporre un’API HTTP compatibile con OpenAI con llama-server.

OpenCode Quickstart: Installa, Configura e Usa l'Agente AI di Coding da Terminale

OpenCode è un agente di coding AI open source che puoi eseguire nel terminale (TUI + CLI) con interfacce desktop e IDE opzionali. Questa è la Guida rapida OpenCode: installazione, verifica, connessione a un modello/fornitore ed esecuzione di flussi di lavoro reali (CLI + API).

Airtable per sviluppatori e DevOps - Piani, API, Webhook e esempi in Go/Python

Airtable è meglio considerata come una piattaforma low-code costruita intorno a un’interfaccia collaborativa “simile a un foglio di calcolo” - ideale per creare rapidamente strumenti operativi (tracciatori interni, CRM leggeri, pipeline di contenuti, code di valutazione AI) dove gli sviluppatori non devono un’interfaccia amichevole, ma gli sviluppatori necessitano anche di un’API per l’automazione e l’integrazione.

Monitoraggio dell'inferenza LLM in produzione (2026): Prometheus e Grafana per vLLM, TGI e llama.cpp

L’inferenza LLM sembra “un altro API” — fino a quando i picchi di latenza, le code si ingorgano e le tue GPU rimangono al 95% di memoria senza una spiegazione ovvia.

OpenClaw: Esaminare un Assistente AI Self-Hosted come Sistema Reale

La maggior parte delle configurazioni locali di AI inizia allo stesso modo: un modello, un runtime e un’interfaccia di chat.

OpenClaw Guida Rapida: Installazione con Docker (Ollama GPU o Claude + CPU)

OpenClaw è un assistente AI self-hosted progettato per essere eseguito con runtime LLM locali come Ollama o con modelli basati sul cloud come Claude Sonnet.

Garage vs MinIO vs AWS S3: confronto tra storage per oggetti e matrice delle funzionalità

AWS S3 rimane il “default” baselines per lo storage degli oggetti: è completamente gestito, fortemente coerente e progettato per una durabilità e disponibilità estremamente elevate.
Garage e MinIO sono alternative auto-hosted e compatibili con S3: Garage è progettato per cluster leggeri, geodistribuiti di piccole e medie dimensioni, mentre MinIO si concentra sulla copertura completa delle funzionalità dell’API S3 e sulle prestazioni elevate in ambienti più grandi.

Implementare Applicazioni di Workflow con Temporal in Go: Una Guida Completa

Temporal è un motore open-source, enterprise-grade per i flussi di lavoro che consente agli sviluppatori di costruire applicazioni di flusso di lavoro durature, scalabili e tolleranti ai guasti utilizzando linguaggi di programmazione familiari come Go.

Garage - Archiviazione oggetti compatibile con S3 Guida rapida

Garage è un sistema di storage oggetto open-source, auto-hostato e compatibile con S3, progettato per piccole e medie implementazioni, con un forte enfasi sulla resilienza e sulla distribuzione geografica.

Osservabilità per sistemi LLM: metriche, tracce, log e test in produzione

LLM systems falliscono in modi che la tradizionale monitorizzazione degli API non riesce a rilevare — le code si riempiono in silenzio, la memoria GPU si saturano molto prima che il CPU appaia occupata, e la latenza aumenta a livello di batching anziché a livello di applicazione. Questa guida copre una strategia end-to-end strategia di osservabilità per l’inferenza degli LLM e le applicazioni LLM: cosa misurare, come strumentarla con Prometheus, OpenTelemetry e Grafana, e come distribuire la pipeline di telemetria su larga scala.

Strategie di chunking in RAG: alternative, compromessi e esempi

Chunking è il parametro iperparametrico più sottovalutato nel Retrieval ‑ Augmented Generation (RAG): determina in silenzio ciò che il tuo LLM “vede”, quanto diventa costosa l’ingestione, e quanto del contesto dell’LLM bruci per ogni risposta.

L'automazione del browser in Go: Selenium, chromedp, Playwright, ZenRows

Scegliere la giusta stack di automazione del browser e web scraping in Go influisce sulla velocità, sulla manutenzione e su dove esegue il codice.

Come configurare i launcher desktop su Ubuntu 24 con icone standard

Launcher per il desktop su Ubuntu 24 (e su maggior parte dei desktop Linux) sono definiti da file .desktop: piccoli file di configurazione basati su testo che descrivono un’applicazione o un collegamento.

Creare un AWS CloudFront su base Pay-as-You-Go (non il piano gratuito)

Il piano gratuito di AWS non funziona per me e
Pay-as-you-go è nascosto per nuove distribuzioni CloudFront sulla console AWS.

L'automazione del browser in Python: Playwright, Selenium e altro ancora

Scegliere lo stack giusto per l’automazione del browser in Python influisce sulla velocità, sulla stabilità e sulla manutenzione. Questo riepilogo confronta Playwright vs Selenium vs Puppeteer vs LambdaTest vs ZenRows vs Gauge - con un focus su Python, notando dove Node.js o altri linguaggi si adattano.

Interfaccia utente del terminale: BubbleTea (Go) vs Ratatui (Rust)

Due forti opzioni disponibili oggi per costruire interfacce utente per il terminale sono BubbleTea (Go) e Ratatui (Rust). Una ti fornisce un framework opinato nello stile Elm; l’altra una libreria flessibile in modalità immediata.

Iscriviti