Problemi di output strutturato di Ollama GPT-OSS
Non molto bello.
Ollama’s GPT-OSS models presentano problemi ricorrenti nel gestire l’output strutturato, specialmente quando utilizzati con framework come LangChain, OpenAI SDK, vllm e altri.
Non molto bello.
Ollama’s GPT-OSS models presentano problemi ricorrenti nel gestire l’output strutturato, specialmente quando utilizzati con framework come LangChain, OpenAI SDK, vllm e altri.
Un paio di modi per ottenere un output strutturato da Ollama
Modelli di grandi dimensioni (LLMs) sono potenti, ma in produzione raramente desideriamo paragrafi liberi. Invece, vogliamo dati prevedibili: attributi, fatti o oggetti strutturati che possiamo alimentare in un’app. Questo è LLM Structured Output.
Il mio test personale della pianificazione del modello ollama ```
Ecco il confronto tra quanta VRAM la nuova versione di Ollama alloca per il modello rispetto alla versione precedente di Ollama. La nuova versione è peggio.
La mia opinione sull'attuale stato dello sviluppo di Ollama
Ollama ha rapidamente raggiunto uno dei posti più popolari tra gli strumenti per eseguire i modelli linguistici localmente. La sua semplice CLI e la gestione semplificata dei modelli l’hanno resa un’opzione di riferimento per gli sviluppatori che desiderano lavorare con i modelli AI al di fuori del cloud. Ma, come spesso accade con molte piattaforme promettenti, ci sono già segnali di Enshittification:
Panoramica rapida delle interfacce utente più rilevanti per Ollama nel 2025
Ollama ospitato localmente permette di eseguire modelli linguistici di grandi dimensioni sulla propria macchina, ma utilizzarlo tramite riga di comando non è molto user-friendly. Ecco alcuni progetti open-source che offrono interfacce stile ChatGPT che si collegano a un Ollama locale.
L'implementazione di RAG? Ecco alcuni frammenti di codice in Go - 2...
Poiché l’Ollama standard non dispone di un’API di reranking diretta, sarà necessario implementare reranking utilizzando Qwen3 Reranker in GO generando gli embedding per le coppie query-documento e valutandoli.
qwen3 8b, 14b e 30b, devstral 24b, mistral small 24b
In questo test sto confrontando come diversi LLM ospitati su Ollama traducono una pagina Hugo dall’inglese al tedesco. Le tre pagine che ho testato erano su argomenti diversi, avevano un bel markdown con una certa struttura: intestazioni, elenchi, tabelle, link, ecc.
L'implementazione di RAG? Ecco alcuni snippet di codice in Golang.
Questo piccolo Esempio di codice Go per il rirango è che chiama Ollama per generare embedding per la query e per ogni documento candidato, poi ordinando in ordine discendente per similarità coseno.
Nuovi LLM fantastici disponibili in Ollama
I modelli Qwen3 Embedding e Reranker sono le ultime release della famiglia Qwen, specificamente progettati per compiti avanzati di embedding del testo, recupero e rirango.
Stai pensando di installare una seconda GPU per i modelli LLM?
Come le lane PCIe influenzano le prestazioni degli LLM? Dipende dal compito. Per l’addestramento e l’inferenza multi-GPU, la riduzione delle prestazioni è significativa.
LLM per estrarre il testo da HTML...
Nella libreria dei modelli Ollama ci sono modelli in grado di convertire contenuti HTML in Markdown, che è utile per compiti di conversione del contenuto.
Cursor AI, GitHub Copilot, Cline AI e...
Ecco la traduzione del contenuto della pagina Hugo dallo pseudocodice in italiano, mantenendo tutte le specifiche tecniche e gli elementi Hugo originali:
Will elencare qui alcuni strumenti di coding assistiti da AI e AI Coding Assistants con i loro lati positivi.
Ollama su CPU Intel: efficienza vs prestazioni
Ho un’idea da testare: se l’utilizzo di tutti i core su un processore Intel aumenterebbe la velocità degli LLM? Mi sta infastidendo il fatto che il nuovo modello gemma3 27 bit (gemma3:27b, 17 GB su ollama) non entra nei 16 GB di VRAM della mia GPU e viene eseguito parzialmente sul CPU.
Configurare ollama per l'esecuzione di richieste parallele.
Quando il server Ollama riceve due richieste contemporaneamente, il suo comportamento dipende dalla sua configurazione e dalle risorse del sistema disponibili.
Confronto tra due modelli deepseek-r1 e due modelli base
DeepSeek’s prima generazione di modelli di ragionamento con prestazioni paragonabili a quelle di OpenAI-o1, inclusi sei modelli densi distillati da DeepSeek-R1 basati su Llama e Qwen.
Compilato questa lista di comandi Ollama un po' di tempo fa...
Ecco l’elenco e gli esempi dei comandi più utili di Ollama (Ollama commands cheatsheet) L’ho compilato tempo fa, ultima aggiornamento a gennaio 2026. Spero che sarà anche utile per te.