Allocazione della memoria e pianificazione del modello nella nuova versione di Ollama - v0.12.1

Il mio test della pianificazione del modello ollama

Indice

Ecco che confronto quanta VRAM la nuova versione di Ollama alloca per il modello rispetto alla versione precedente di Ollama. La nuova versione è peggio.

Per ulteriori informazioni sul throughput, sulla latenza, sulla VRAM e sui benchmark tra diversi runtimes e hardware, vedi LLM Performance: Benchmarks, Bottlenecks & Optimization.

Come detto sul sito ufficiale la nuova release di Ollama presenta New model scheduling con

Maximizing GPU utilization:
Ollama’s new memory management allocates more memory to the GPU,
increasing token generation and processing speeds

e alcuni esempi sono forniti, ad esempio:

Long context

    GPU: 1x NVIDIA GeForce RTX 4090
    Model: gemma3:12b
    Context length: 128k

Old                                   New
52.02 tokens/s token generation speed 85.54 tokens/s token generation speed
19.9GiB of VRAM                       21.4GiB of VRAM
48⁄49 layers loaded on GPU            49⁄49 layers loaded on GPU

Qui sto testando come funziona sul mio PC. I miei risultati sono molto diversi da quelli ufficiali, addirittura completamente opposti. Ho un hardware leggermente diverso e ho testato modelli diversi, ma i risultati non sono affatto migliori, e spesso peggiori. Questo è in linea con il post su First Signs of Ollama Enshittification.

ollama llamas Questa immagine proviene da un post del blog sul sito web di Ollama.

TL;DR

Ho testato come la nuova versione di Ollama scheduling LLMs che non entrano nel mio 16GB VRAM.

  • mistral-small3.2:24b
  • qwen3:30b-a3b
  • gemma3:27b
  • qwen3:32b

Stavo eseguendo ollama run <modelname>, quindi una semplice domanda come chi sei?, e in un terminale separato ho controllato la risposta di ollama ps e nvidia-smi. Tutto abbastanza semplice.

Solo qwen3:30b-a3b ha mostrato lo stesso spread CPU/GPU, gli altri tre modelli sono stati spostati maggiormente sulla CPU nella nuova versione. Nei miei test, a mia grande delusione, la nuova versione di Ollama è peggio, e questi risultati contraddicono il post sul blog di Ollama.

Dati di confronto dettagliati

Modello VRAM allocata versione vecchia CPU/GPU versione vecchia VRAM allocata versione nuova CPU/GPU versione nuova
mistral-small3.2:24b 14489MiB 41%/59% 14249MiB 44%/56%
qwen3:30b-a3b 15065MiB 21%/79% 14867MiB 21%/79%
gemma3:27b 13771MiB 28%/72% 14817MiB 29%/71%
qwen3:32b 14676MiB 30%/70% 15139MiB 32%/68%

Deluso.

Per ulteriori benchmark, tuning della memoria e guide sulle prestazioni, controlla il nostro LLM Performance: Benchmarks, Bottlenecks & Optimization hub.