LLM - Page 6 - Rost Glukhov | Sito personale e blog tecnico

RAG Avanzato: spiegazione di LongRAG, Self-RAG e GraphRAG

Generazione Aumentata da Recupero (RAG) è evoluta ben oltre la semplice ricerca di similarità vettoriale. LongRAG, Self-RAG e GraphRAG rappresentano l’avanguardia di queste capacità.

Esecuzione di FLUX.1-dev GGUF Q8 in Python

FLUX.1-dev è un potente modello di generazione di immagini da testo che produce risultati straordinari, ma il suo requisito di memoria di 24GB+ rende difficile il suo utilizzo su molti sistemi. Quantizzazione GGUF di FLUX.1-dev offre una soluzione, riducendo l’utilizzo della memoria del circa 50% mantenendo comunque una buona qualità delle immagini.

Docker Model Runner: Guida alla configurazione della dimensione del contesto

Configurazione delle dimensioni del contesto in Docker Model Runner è più complessa di quanto dovrebbe essere.

FLUX.1-Kontext-dev: Modello AI per l'incremento delle immagini

Black Forest Labs ha rilasciato FLUX.1-Kontext-dev, un avanzato modello AI image-to-image che migliora le immagini esistenti utilizzando istruzioni testuali.

Aggiungere il supporto per GPU NVIDIA a Docker Model Runner

Docker Model Runner è lo strumento ufficiale di Docker per eseguire modelli AI in locale, ma abilitare l’accelerazione GPU di NVidia in Docker Model Runner richiede una configurazione specifica.

Ridurre i costi degli LLM: strategie di ottimizzazione dei token

L’ottimizzazione dei token è l’abilità fondamentale che distingue le applicazioni LLM economicamente efficienti dagli esperimenti che prosciugano il budget.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Confronto delle prestazioni di Ollama

Ho trovato alcuni interessanti test sulle prestazioni di GPT-OSS 120b in esecuzione su Ollama su tre diversi piattaforme: NVIDIA DGX Spark, Mac Studio, e RTX 4080. Il modello GPT-OSS 120b dalla libreria Ollama pesa 65 GB, il che significa che non si adatta alla VRAM da 16 GB di un RTX 4080 (o al più recente RTX 5080).

Costruire Server MCP in Python: Guida per Ricerca Web e Scraping

Il Model Context Protocol (MCP) sta rivoluzionando il modo in cui gli assistenti AI interagiscono con le fonti di dati esterne e gli strumenti. In questa guida, esploreremo come costruire server MCP in Python, con esempi focalizzati sulle capacità di ricerca web e scraping.

Convertire HTML in Markdown con Python: una guida completa

Conversione di HTML in Markdown è un compito fondamentale nei flussi di lavoro di sviluppo moderni, in particolare quando si prepara il contenuto web per i Large Language Models (LLMs), i sistemi di documentazione o i generatori di siti statici come Hugo. Questa guida fa parte del nostro Strumenti di Documentazione nel 2026: Markdown, LaTeX, PDF e Flussi di Lavoro per la Stampa hub.

Docker Model Runner Cheatsheet: Comandi & Esempi

Docker Model Runner (DMR) è la soluzione ufficiale di Docker per eseguire modelli AI localmente, introdotta nel aprile 2025. Questo foglio di riferimento fornisce un rapido riferimento per tutti i comandi essenziali, le configurazioni e le best practice.

Docker Model Runner vs Ollama (2026): Qual è il migliore per i modelli LLM locali?

Running large language models (LLMs) locally ha guadagnato popolarità per la privacy, il controllo dei costi e le capacità offline. Il panorama si è notevolmente modificato nel aprile 2025 quando Docker ha introdotto Docker Model Runner (DMR), la sua soluzione ufficiale per il deployment di modelli AI.

ASIC per LLM e chip specializzati per l'inferenza (e perché sono importanti)

Il futuro dell’AI non riguarda solo modelli più intelligenti. Riguarda anche il silicio che corrisponde al modo in cui questi modelli vengono effettivamente eseguiti. L’hardware specializzato per l’inference degli LLM sta seguendo una strada che ricorda il passaggio del mining di Bitcoin dalle GPU agli ASIC costruiti appositamente, sebbene con vincoli più stringenti perché modelli e schemi di precisione continuano a evolversi.

DGX Spark vs. Mac Studio: un'analisi al ribasso del supercomputer personale AI di NVIDIA

NVIDIA DGX Spark è reale, in vendita dal 15 ottobre 2025, ed è rivolto agli sviluppatori CUDA che necessitano di lavori locali con LLM con uno stack NVIDIA AI integrato. Prezzo di listino USA $3.999; il prezzo al dettaglio nel Regno Unito/DE/JP è più alto a causa dell’IVA e dei canali di distribuzione. I prezzi pubblici AUD/KRW non sono ancora ampiamente pubblicati.

Ecco un confronto tra Qwen3:30b e GPT-OSS:20b con un focus sul rispetto delle istruzioni e sui parametri di prestazione, specifiche e velocità.

Integrare Ollama con Python: esempi di API REST e client Python

In questo post, esploreremo due modi per connettere la tua applicazione Python a Ollama: 1. Attraverso l’HTTP REST API; 2. Attraverso la libreria ufficiale Python di Ollama.

Problemi di Output Strutturato di Ollama GPT-OSS

Ollama’s GPT-OSS models presentano frequenti problemi nel gestire l’output strutturato, specialmente quando vengono utilizzate con framework come LangChain, OpenAI SDK, vllm e altri.