AI - Page 3 - Rost Glukhov | Sito personale e blog tecnico

Scegliere il giusto LLM per Cognee: Configurazione locale di Ollama

Scegliere il miglior LLM per Cognee richiede di bilanciare la qualità della costruzione del grafo, i tassi di allucinazione e i vincoli hardware. Cognee eccelle con modelli più grandi a bassa allucinazione (32B+) tramite Ollama ma le opzioni di dimensioni medio-piccole funzionano per le configurazioni più leggere.

Scheda di riferimento per Jupyter Notebook

Jumpstart the produttività del Jupyter Notebook con scorciatiere essenziali, comandi magici e suggerimenti per il flusso di lavoro che trasformeranno l’esperienza di data science e sviluppo.

Utilizzo dell'API di ricerca Web di Ollama in Python

La libreria Python di Ollama ora include funzionalità native di ricerca web OLLama. Con poche righe di codice, puoi arricchire i tuoi LLM locali con informazioni in tempo reale dal web, riducendo le illusioni e migliorando l’accuratezza.

La scelta del giusto vettore store può fare la differenza per le prestazioni, i costi e la scalabilità della tua applicazione RAG. Questo confronto completo copre le opzioni più popolari nel 2024-2025.

L’API di ricerca web di Ollama ti permette di integrare LLM locali con informazioni in tempo reale dal web. Questa guida ti mostra come implementare le capacità di ricerca web in Go, dal semplice utilizzo dell’API alle funzionalità complete degli agenti di ricerca.

Aumento dei prezzi della RAM: fino al 619% nel 2025

Il mercato della memoria sta vivendo una volatilità dei prezzi senza precedenti alla fine del 2025, con i prezzi della RAM in forte aumento che si stanno verificando drammaticamente in tutti i segmenti.

Ollama vs vLLM vs LM Studio: il miglior modo per eseguire LLM localmente nel 2026?

Eseguire i modelli LLM localmente è ora pratico per sviluppatori, startup e persino team aziendali.
Ma scegliere lo strumento giusto — Ollama, vLLM, LM Studio, LocalAI o altri — dipende dagli obiettivi:

Go Microservices per l'Orchestrazione AI/ML

Con l’aumento della complessità dei carichi di lavoro di AI e ML, è diventato più urgente il bisogno di sistemi di orchestrazione robusti. La semplicità, le prestazioni e la concorrenza di Go lo rendono una scelta ideale per costruire lo strato di orchestrazione dei pipeline ML, anche quando i modelli stessi sono scritti in Python.

Embedding multimodali: collegare le modalità dell'AI

Embeddingi cross-modal rappresentano un passo avanti significativo nell’intelligenza artificiale, consentendo di comprendere e ragionare su diversi tipi di dati all’interno di uno spazio di rappresentazione unificato.

La democratizzazione dell’IA è qui. Con LLM open-source come Llama, Mistral e Qwen che ora competono con i modelli proprietari, i team possono costruire potenti infrastrutture AI utilizzando hardware consumer - riducendo drasticamente i costi mantenendo il controllo totale sulla privacy dei dati e sul deployment.

RAG Avanzato: spiegazione di LongRAG, Self-RAG e GraphRAG

Generazione Aumentata da Recupero (RAG) è evoluta ben oltre la semplice ricerca di similarità vettoriale. LongRAG, Self-RAG e GraphRAG rappresentano l’avanguardia di queste capacità.

Esecuzione di FLUX.1-dev GGUF Q8 in Python

FLUX.1-dev è un potente modello di generazione di immagini da testo che produce risultati straordinari, ma il suo requisito di memoria di 24GB+ rende difficile il suo utilizzo su molti sistemi. Quantizzazione GGUF di FLUX.1-dev offre una soluzione, riducendo l’utilizzo della memoria del circa 50% mantenendo comunque una buona qualità delle immagini.

Docker Model Runner: Guida alla configurazione della dimensione del contesto

Configurazione delle dimensioni del contesto in Docker Model Runner è più complessa di quanto dovrebbe essere.

FLUX.1-Kontext-dev: Modello AI per l'incremento delle immagini

Black Forest Labs ha rilasciato FLUX.1-Kontext-dev, un avanzato modello AI image-to-image che migliora le immagini esistenti utilizzando istruzioni testuali.

Aggiungere il supporto per GPU NVIDIA a Docker Model Runner

Docker Model Runner è lo strumento ufficiale di Docker per eseguire modelli AI in locale, ma abilitare l’accelerazione GPU di NVidia in Docker Model Runner richiede una configurazione specifica.

Ridurre i costi degli LLM: strategie di ottimizzazione dei token

L’ottimizzazione dei token è l’abilità critica che distingue le applicazioni economiche degli LLM dagli esperimenti che consumano il budget.

AI

Scegliere il giusto LLM per Cognee: Configurazione locale di Ollama

Scheda di riferimento per Jupyter Notebook

Utilizzo dell'API di ricerca Web di Ollama in Python

Confronto dei Vettori Store per RAG

L'uso dell'Ollama Web Search API in Go

Aumento dei prezzi della RAM: fino al 619% nel 2025

Ollama vs vLLM vs LM Studio: il miglior modo per eseguire LLM localmente nel 2026?

Go Microservices per l'Orchestrazione AI/ML

Embedding multimodali: collegare le modalità dell'AI

Infrastruttura AI su hardware consumer

RAG Avanzato: spiegazione di LongRAG, Self-RAG e GraphRAG

Esecuzione di FLUX.1-dev GGUF Q8 in Python

Docker Model Runner: Guida alla configurazione della dimensione del contesto

FLUX.1-Kontext-dev: Modello AI per l'incremento delle immagini

Aggiungere il supporto per GPU NVIDIA a Docker Model Runner

Ridurre i costi degli LLM: strategie di ottimizzazione dei token