Chunking è il parametro iperparametrico più sottovalutato nel Retrieval ‑ Augmented Generation (RAG):
determina in silenzio ciò che il tuo LLM “vede”,
quanto diventa costosa l’ingestione,
e quanto del contesto dell’LLM bruci per ogni risposta.
L’hosting self-hosted di LLM mantiene i dati, i modelli e l’inferenza sotto il tuo controllo: un percorso pratico verso sovrainità AI per team, aziende e nazioni.
Test della velocità del modello LLM sull'RTX 4080 con 16 GB di VRAM
Eseguire grandi modelli linguistici in locale ti offre privacy, capacità offline e zero costi API.
Questo benchmark rivela esattamente cosa si può aspettare da 14 modelli popolari
LLMs su Ollama su un RTX 4080.
Oggi ci concentriamo sui GPU per consumatori di alto livello e sui moduli di RAM.
Specificamente sto esaminando
prezzi RTX-5080 e RTX-5090, e 32GB (2x16GB) DDR5 6000.
Dopo l’installazione automatica di un nuovo kernel, Ubuntu 24.04 ha perso la connessione Ethernet. Questo problema frustrante è successo nuovamente a me, quindi sto documentando la soluzione qui per aiutare gli altri che affrontano lo stesso problema.
I prezzi della RAM schizzano del 163-619% mentre la domanda di AI mette sotto pressione l'offerta.
Il mercato della memoria sta vivendo una volatilità dei prezzi senza precedenti alla fine del 2025, con i prezzi della RAM in forte aumento che si stanno verificando drammaticamente in tutti i segmenti.
Prezzi delle GPU consumer adatte all'AI - RTX 5080 e RTX 5090
Confrontiamo i prezzi per le GPU consumer di fascia alta, in particolare quelle adatte per le LLM e per l’IA in generale.
Nello specifico, sto esaminando i prezzi di RTX-5080 e RTX-5090.
Distribuisci l'AI enterprise su hardware economico con modelli open source.
La democratizzazione dell’IA è qui.
Con LLM open-source come Llama, Mistral e Qwen che ora competono con i modelli proprietari, i team possono costruire potenti infrastrutture AI utilizzando hardware consumer - riducendo drasticamente i costi mantenendo il controllo totale sulla privacy dei dati e sul deployment.
Ho trovato alcuni interessanti test sulle prestazioni di GPT-OSS 120b in esecuzione su Ollama su tre diversi piattaforme: NVIDIA DGX Spark, Mac Studio, e RTX 4080. Il modello GPT-OSS 120b dalla libreria Ollama pesa 65 GB, il che significa che non si adatta alla VRAM da 16 GB di un RTX 4080 (o al più recente RTX 5080).
Riferimento rapido per i comandi di Docker Model Runner
Docker Model Runner (DMR) è la soluzione ufficiale di Docker per eseguire modelli AI localmente, introdotta nel aprile 2025. Questo foglio di riferimento fornisce un rapido riferimento per tutti i comandi essenziali, le configurazioni e le best practice.