Può l’RTX 4080 eseguire efficacemente GPT-OSS 120b?

Sì, sorprendentemente bene. L’RTX 4080 raggiunge 969 token/s per l’analisi del prompt e 12,45 token/s per la generazione, anche se il modello funziona per l'82% su CPU e solo per il 22% su GPU a causa della dimensione del modello di 65 GB che supera i 16 GB di VRAM.

Come si comporta Mac Studio con GPT-OSS 120b?

Il Mac Studio inizia con un’efficienza di 34 token/s, ma le prestazioni diminuiscono significativamente fino a 6 token/s all’aumentare della dimensione del contesto, rendendolo meno adatto a compiti con contesti lunghi con questo modello.

È conveniente utilizzare NVIDIA DGX Spark per l’esecuzione di modelli linguistici di grandi dimensioni?

Per GPT-OSS 120b, DGX Spark fornisce un’ottima prestazione di 41 token/s. Tuttavia, per modelli di dimensioni medie o grandi come Qwen3:32b e Llama3.1:70b, le prestazioni non sono altrettanto impressionanti, suggerendo che è maggiormente vantaggioso per modelli molto grandi che realmente necessitano della capacità di RAM elevata.

Cos’è GPT-OSS 120b e perché è significativo?

GPT-OSS 120b è un modello Mixture-of-Experts (MoE) con 117B parametri, di cui 5,1B attivi per passata, utilizzando la quantizzazione MXFP4. Con un peso di 65 GB, è uno dei modelli più grandi disponibili pubblicamente, rendendolo un buon riferimento per il test di hardware AI ad alta capacità.

È possibile eseguire GPT-OSS 120b su un sistema con solo 16 GB di VRAM?

Non completamente sulla GPU. Con 16 GB di VRAM, il modello farà un uso pesante del trasferimento sulla CPU. Avrai bisogno di almeno 64 GB di RAM del sistema per una prestazione decente, sebbene non sarà pronta per la produzione. Il modello si comporta meglio sui sistemi con una elevata VRAM o architetture a memoria unificata.

Dove posso trovare ulteriori benchmark sulle prestazioni degli LLM e guide di ottimizzazione?

Il nostro hub sulle prestazioni del modello linguistico pesante (LLM) include throughput vs latenza, limiti di VRAM, richieste parallele, allocazione della memoria e benchmark su diversi runtimes e hardware.

Come influisce il trasferimento del carico del processore sulla velocità di generazione dei token?

L’offload pesante della CPU rallenta la generazione. La sezione Prestazioni del modello linguistico (LLM) presenta benchmark che confrontano scenari con utilizzo completo della GPU rispetto a quelli con offload della CPU e spiega come interpretare il tasso di valutazione e i token al secondo.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Confronto delle prestazioni di Ollama

Benchmark GPT-OSS 120b su tre piattaforme AI

Indice

Ho trovato alcuni interessanti test sulle prestazioni di GPT-OSS 120b in esecuzione su Ollama su tre diversi piattaforme: NVIDIA DGX Spark, Mac Studio, e RTX 4080. Il modello GPT-OSS 120b dalla libreria Ollama pesa 65 GB, il che significa che non si adatta alla VRAM da 16 GB di un RTX 4080 (o al più recente RTX 5080).

Sì, il modello può essere eseguito con un offloading parziale sulla CPU, e se hai 64 GB di RAM del sistema (come ho io), puoi provarlo. Tuttavia, questa configurazione non sarebbe considerata affatto vicina alle prestazioni necessarie per un ambiente di produzione. Per carichi di lavoro davvero impegnativi, potresti aver bisogno di qualcosa come il NVIDIA DGX Spark, che è stato progettato specificamente per carichi di lavoro AI ad alta capacità. Per ulteriori informazioni sulle prestazioni degli LLM—throughput vs latenza, limiti di VRAM e benchmark su diversi runtimes e hardware—vedi Prestazioni degli LLM: Benchmark, Colli di bottiglia & Ottimizzazione.

7 llamas

Avevo previsto che questo LLM potesse beneficiare significativamente dall’essere eseguito su un “dispositivo ad alta capacità di RAM” come il DGX Spark. Sebbene i risultati siano buoni, non sono così nettamente migliori come potresti aspettarti considerando la differenza di prezzo tra DGX Spark e opzioni più economiche.

TL;DR

Ollama in esecuzione su GPT-OSS 120b confronto delle prestazioni su tre piattaforme:

Dispositivo	Prestazioni di valutazione del prompt (token/sec)	Prestazioni di generazione (token/sec)	Note
NVIDIA DGX Spark	1159	41	Prestazioni complessive migliori, completamente accelerato dalla GPU
Mac Studio	Sconosciuto	34 → 6	Un test ha mostrato un peggioramento con l’aumento della dimensione del contesto
RTX 4080	969	12,45	Divisione 78% CPU / 22% GPU a causa dei limiti di VRAM

Specifiche del modello:

Modello: GPT-OSS 120b
Parametri: 117B (architettura Mixture-of-Experts)
Parametri attivi per passata: 5,1B
Quantizzazione: MXFP4
Dimensione del modello: 65 GB

Questo è simile ad altre architetture MoE come Qwen3:30b, ma su una scala molto maggiore.

GPT-OSS 120b su NVIDIA DGX Spark

I dati sulle prestazioni del modello LLM su NVIDIA DGX Spark provengono dal post ufficiale del blog Ollama (vedi di seguito nella sezione Link utili). Il DGX Spark rappresenta l’ingresso di NVIDIA nel mercato dei supercomputer personali per l’AI, con 128 GB di memoria unificata specificamente progettata per l’esecuzione di modelli linguistici di grandi dimensioni.

tabella delle prestazioni di ollama su dgx spark

Le prestazioni di GPT-OSS 120b sembrano impressionanti, con una velocità di generazione di 41 token/sec. Questo lo rende chiaramente il vincitore per questo modello specifico, dimostrando che la capacità aggiuntiva di memoria può davvero fare la differenza per modelli estremamente grandi.

Tuttavia, le prestazioni dei modelli LLM di dimensioni medio-grandi non sembrano così convincenti. Questo è particolarmente evidente con Qwen3:32b e Llama3.1:70b—esattamente i modelli in cui ti aspetteresti che la capacità di RAM elevata brillasse. Le prestazioni su DGX Spark per questi modelli non sono particolarmente ispiratrici quando si confrontano con il premio di prezzo. Se stai principalmente lavorando con modelli nella gamma di parametri da 30 a 70B, potresti voler considerare alternative come un workstation ben configurato o anche un Quadro RTX 5880 Ada con i suoi 48 GB di VRAM.

GPT-OSS 120b su Mac Studio Max

Il canale YouTube Slinging Bits ha condotto test completi sull’esecuzione di GPT-OSS 120b su Ollama con dimensioni di contesto variabili. I risultati rivelano un problema significativo di prestazioni: la velocità di generazione del modello è calata drasticamente da 34 token/s a soli 6 token/s con l’aumento della dimensione del contesto.

Questo peggioramento delle prestazioni è probabilmente dovuto alla pressione sulla memoria e a come macOS gestisce l’architettura della memoria unificata. Sebbene il Mac Studio Max abbia una memoria unificata impressionante (fino a 192 GB nella configurazione M2 Ultra), il modo in cui gestisce modelli molto grandi sotto carichi di contesto crescenti differisce in modo significativo dalla VRAM dedicata della GPU.

ollama con gpt-oss 120b su mac studio

“ollama-gpt-oss-120b-on-mac-studio-summary”

Per applicazioni che richiedono prestazioni costanti su lunghezze di contesto variabili, questo rende il Mac Studio meno ideale per GPT-OSS 120b, nonostante le sue capacità eccellenti per i carichi di lavoro di AI. Potresti ottenere maggiori risultati con modelli più piccoli o considerare l’uso delle funzionalità di gestione delle richieste parallele di Ollama per massimizzare il throughput in scenari di produzione.

GPT-OSS 120b su RTX 4080

All’inizio pensavo che eseguire Ollama con GPT-OSS 120b sul mio PC consumer non sarebbe stato particolarmente eccitante, ma i risultati mi hanno sorpreso positivamente. Ecco cosa è successo quando l’ho testato con questa query:

$ ollama run gpt-oss:120b --verbose Confronta il clima nelle capitali degli stati dell'Australia


Sto pensando...
Dobbiamo confrontare il clima nelle capitali degli stati dell'Australia. Fornisci un confronto, potresti includere 
...
*Tutti i dati accessibili a settembre 2024; eventuali aggiornamenti del BOM successivi a questa data potrebbero leggermente modificare i 
numeri, ma i pattern generali rimangono invariati.*


durata totale:       4m39.942105769s
durata di caricamento:        75.843974ms
contatore di valutazione del prompt:    75 token
durata di valutazione del prompt: 77.341981ms
velocità di valutazione del prompt:     969.72 token/s
contatore di valutazione:           3483 token
durata di valutazione:        4m39.788119563s
velocità di valutazione:            12.45 token/s

Ora ecco la parte interessante—Ollama con questo LLM stava eseguendo quasi interamente sulla CPU! Il modello semplicemente non si adatta alla VRAM da 16 GB, quindi Ollama ha intelligente offloaded la maggior parte di esso alla RAM del sistema. Puoi vedere questo comportamento utilizzando il comando ollama ps:

$ ollama ps

NOME            ID              DIMENSIONE     PROCESSORE          CONTESTO 
gpt-oss:120b    a951a23b46a1    65 GB    78%/22% CPU/GPU    4096

Nonostante il 78% CPU / 22% GPU, l’RTX 4080 comunque fornisce prestazioni rispettabili per un modello di questa dimensione. La valutazione del prompt è estremamente veloce a 969 token/s, e anche la velocità di generazione di 12,45 token/s è utilizzabile per molte applicazioni.

Questo è particolarmente impressionante considerando che:

Il modello è quasi 4 volte più grande della VRAM disponibile
La maggior parte del calcolo avviene sulla CPU (che beneficia della mia RAM del sistema da 64 GB)
Capire come Ollama utilizza i core della CPU può aiutare a ottimizzare ulteriormente questa configurazione

Chi avrebbe mai pensato che una GPU consumer potesse gestire un modello con 117B parametri, figuriamoci con prestazioni utilizzabili? Questo dimostra il potere della gestione intelligente della memoria di Ollama e l’importanza di disporre di una sufficiente RAM del sistema. Se sei interessato all’integrazione di Ollama nelle tue applicazioni, consulta questa guida su l’utilizzo di Ollama con Python.

Nota: Sebbene questo funzioni per sperimentazione e test, noterai che GPT-OSS può avere alcuni inconvenienti, in particolare con i formati di output strutturati.

Per esplorare ulteriori benchmark, i compromessi tra offloading VRAM e CPU, e l’ottimizzazione delle prestazioni su diversi piattaforme, consulta il nostro LLM Performance: Benchmarks, Bottlenecks & Optimization hub.

Fonti principali

Ollama su NVIDIA DGX Spark: Benchmark sulle Prestazioni - Post ufficiale del blog Ollama con dati completi sulle prestazioni del DGX Spark
GPT-OSS 120B su Mac Studio - Canale YouTube Slinging Bits - Video dettagliato che testa GPT-OSS 120b con dimensioni di contesto variabili

Lettura correlata su confronto hardware e Ollama

DGX Spark vs. Mac Studio: Una panoramica pratica, con verifica dei prezzi, su NVIDIA’s Personal AI Supercomputer - Spiegazione dettagliata delle configurazioni DGX Spark, prezzi globali e confronto diretto con Mac Studio per il lavoro locale sull’AI
NVIDIA DGX Spark - Anticipazioni - Copertura iniziale del DGX Spark: disponibilità, prezzi e specifiche tecniche
Prezzi di NVidia RTX 5080 e RTX 5090 in Australia - Ottobre 2025 - Prezzi attuali del mercato per le nuove GPU consumer
Il Quadro RTX 5880 Ada 48GB è buono? - Recensione della GPU da 48 GB per lavoro sull’AI
Ollama cheatsheet - Riferimento completo ai comandi e suggerimenti per Ollama

P.S. Nuovi dati

Già dopo aver pubblicato questo post, ho trovato sul sito NVIDIA alcune statistiche aggiuntive sull’inferenza degli LLM su DGX Spark:

Migliore, ma non contraddittoria rispetto a quanto detto sopra (55 token vs 41), ma è un’aggiunta interessante, soprattutto riguardo a Qwen3 235B (su dual DGX Spark) che produce 11+ token al secondo

https://developer.nvidia.com/blog/how-nvidia-dgx-sparks-performance-enables-intensive-ai-tasks/