LLM - Page 3 - Rost Glukhov | Sito personale e blog tecnico

Guida Rapida all'Assistente per la Codifica OpenHands: Installazione, Flag della CLI ed Esempi

OpenHands è una piattaforma open-source, agnostica rispetto al modello, per agenti di sviluppo software guidati dall’IA. Permette a un agente di comportarsi più come un partner di programmazione che come un semplice strumento di autocompletamento.

LocalAI QuickStart: Esegui Localmente Modelli Linguistici Compatibili con OpenAI

LocalAI è un server di inferenza self-hosted e local-first progettato per comportarsi come un’API OpenAI plug-and-play per eseguire carichi di lavoro di IA sull’hardware proprio (laptop, workstation o server in locale).

Guida rapida a llama.cpp con CLI e Server

Torno sempre su llama.cpp per l’inferenza locale: offre un controllo che Ollama e altri astraggono, e semplicemente funziona. È facile eseguire modelli GGUF in modo interattivo con llama-cli o esporre un’API HTTP compatibile con OpenAI con llama-server.

Strumenti per Sviluppatori AI: La Guida Completa allo Sviluppo Potenziato dall'IA

L’Intelligenza Artificiale sta ridisegnando il modo in cui il software viene scritto, revisionato, distribuito e mantenuto. Dai assistenti di programmazione basati sull’AI all’automazione GitOps e ai flussi di lavoro DevOps, gli sviluppatori si affidano ora a strumenti potenziati dall’AI lungo l’intero ciclo di vita del software.

OpenCode Quickstart: Installa, Configura e Usa l'Agente AI di Coding da Terminale

OpenCode è un agente di coding AI open source che puoi eseguire nel terminale (TUI + CLI) con interfacce desktop e IDE opzionali. Questa è la Guida rapida OpenCode: installazione, verifica, connessione a un modello/fornitore ed esecuzione di flussi di lavoro reali (CLI + API).

Monitoraggio dell'inferenza LLM in produzione (2026): Prometheus e Grafana per vLLM, TGI e llama.cpp

L’inferenza LLM sembra “un altro API” — fino a quando i picchi di latenza, le code si ingorgano e le tue GPU rimangono al 95% di memoria senza una spiegazione ovvia.

OpenClaw Guida Rapida: Installazione con Docker (Ollama GPU o Claude + CPU)

OpenClaw è un assistente AI self-hosted progettato per essere eseguito con runtime LLM locali come Ollama o con modelli basati sul cloud come Claude Sonnet.

OpenClaw: Esaminare un Assistente AI Self-Hosted come Sistema Reale

La maggior parte delle configurazioni locali di AI inizia allo stesso modo: un modello, un runtime e un’interfaccia di chat.

Implementare Applicazioni di Workflow con Temporal in Go: Una Guida Completa

Temporal è un motore open-source, enterprise-grade per i flussi di lavoro che consente agli sviluppatori di costruire applicazioni di flusso di lavoro durature, scalabili e tolleranti ai guasti utilizzando linguaggi di programmazione familiari come Go.

Osservabilità per sistemi LLM: metriche, tracce, log e test in produzione

LLM systems falliscono in modi che la tradizionale monitorizzazione degli API non riesce a rilevare — le code si riempiono in silenzio, la memoria GPU si saturano molto prima che il CPU appaia occupata, e la latenza aumenta a livello di batching anziché a livello di applicazione. Questa guida copre una strategia end-to-end strategia di osservabilità per l’inferenza degli LLM e le applicazioni LLM: cosa misurare, come strumentarla con Prometheus, OpenTelemetry e Grafana, e come distribuire la pipeline di telemetria su larga scala.

Osservabilità in Produzione: Guida a Monitoraggio, Metriche, Prometheus e Grafana (2026)

Osservabilità è il fondamento dei sistemi di produzione affidabili.

Senza metriche, dashboard e allertamenti, i cluster Kubernetes diventano instabili, i carichi di lavoro per l’AI falliscono in silenzio e le regressioni di latenza passano inosservate finché gli utenti non si lamentano.

Tutorial sulla Generazione Aumentata dal Recupero (RAG): Architettura, Implementazione e Guida alla Produzione

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.

Hosting LLM nel 2026: confronto tra infrastrutture locali, self-hosted e cloud

Strategic guide to hosting large language models locally with Ollama, llama.cpp, vLLM, or in the cloud. Compare tools, performance trade-offs, and cost considerations.

Prestazioni degli LLM nel 2026: benchmark, colli di bottiglia e ottimizzazione

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

L’auto-ospedalizzazione degli LLM mantiene dati, modelli e inferenza sotto il tuo controllo: una via pratica per la sovranità dell’IA per team, imprese e nazioni.

Confronto delle prestazioni dei modelli LLM su Ollama su GPU con 16 GB di VRAM

Eseguire grandi modelli linguistici in locale ti offre privacy, capacità offline e zero costi API. Questo benchmark rivela esattamente cosa si può aspettare da 14 modelli popolari LLMs su Ollama su un RTX 4080.