Qual è il miglior LLM per la traduzione di testo su OLLAMA?

Il miglior LLM per la traduzione di testo su OLLAMA è Mistral small 3.1 24b.

Dove posso confrontare Ollama con altre opzioni di hosting per LLM?

La panoramica del nostro hosting LLM confronta Ollama con vLLM, Docker Model Runner, LocalAI e i fornitori di cloud, inclusi i compromessi tra costi e infrastruttura.

È possibile eseguire questi modelli di traduzione su altri back-end oltre a Ollama?

Sì. La guida all’hosting degli LLM confronta Ollama con vLLM, LocalAI, Docker Model Runner e API cloud, in modo da poter scegliere il backend adatto alla tua configurazione.

Confronto della qualità della traduzione delle pagine di Hugo - LLM su Ollama

qwen3 8b, 14b e 30b, devstral 24b, mistral small 24b

Indice

In questo test sto confrontando come diversi LLM ospitati su Ollama traducono una pagina Hugo dall’inglese al tedesco.

Per vedere come Ollama si confronta con altre infrastrutture locali e cloud per LLM — vLLM, Docker Model Runner, LocalAI e fornitori cloud — controlla LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

Tre pagine ho testato su diversi argomenti, avevano alcuni bei markdown con una certa struttura: titoli, elenchi, tabelle, link, ecc.

Tutti questi modelli hanno funzionato su GPU NVIDIA con 16 GB di VRAM, alcuni di loro si sono adattati completamente alla VRAM, alcuni (24b e 30b) non lo hanno fatto e si sono spostati sulla CPU.

Tuttavia, ho testato anche questi ultimi.

due pagine - la traduzione è in corso

I modelli Ollama che ho testato:

qwen3:8b
qwen3:14b
qwen3:30b-a3b
devstral:24b
mistral-small3.1:24b

Dopo aver eseguito i prompt di traduzione su tutti questi modelli, ho chiesto al modello Anthropic intelligente di analizzare la qualità delle traduzioni, confrontarle e fornire metriche per ogni modello.

Ho anche provato magistral:24b ma era pensare troppo, quindi era lento e consumava tutto il contesto. Quindi — non adatto alla mia GPU.

La conclusione semplice: TL;DR

Il migliore è Mistral Small 3.1 24b. Non si adatta ai 16 GB di VRAM, quindi era un po’ lento sul mio hardware.

I due successivi migliori: Qwen 3 14b e Qwen 3 30b. Il 14b si adatta bene, ma il 30b è un modello MoE, quindi abbastanza veloce. Sul mio hardware le loro velocità erano simili.

Test 1: Argomento filosofico

Il markdown della pagina del sito web basato su Hugo su un fantastico argomento filosofico — descrizione e esempi del fallimento logico Ad Baculum.

index.de.devstral-24b.md - Valutazione: 7/10 Punti di forza:

Buona traduzione dei termini tecnici (“argumentum ad baculum Fehlschluss”)
Mantiene la corretta formattazione dei link e la struttura
Traduzione accurata di concetti filosofici complessi
Corretta grammatica e sintassi tedesca

Punti deboli:

“verunstaltet” per “tainted” è un po’ goffo; “getrübt” sarebbe più naturale
Alcune frasi sembrano un po’ rigide o troppo letterali
Problemi minori di flusso in alcune frasi

index.de.mistral-small3.1-24b.md - Valutazione: 8.5/10 Punti di forza:

Flusso naturale della lingua tedesca
Eccellente traduzione dei termini tecnici
Buona conservazione del significato originale e del tono
Corretta grammatica e struttura delle frasi
Utilizzo di “getrübt” per “tainted” che è più naturale

Punti deboli:

Inconsistenze molto minori nel lessico
Deviazioni occasionali leggere dalla struttura originale

index.de.qwen3-8b.md - Valutazione: 6.5/10 Punti di forza:

Traduzione accurata dei concetti principali
Gestione corretta dei termini tecnici
Mantenimento della struttura dell’articolo

Punti deboli:

Alcune formulazioni goffe (“kann sich auch in alltäglichen Interaktionen breiten”)
Flusso tedesco meno naturale in diverse passaggi
Alcune costruzioni grammaticali sembrano forzate
Parola mancante in “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (errore grammaticale)

index.de.qwen3-14b.md - Valutazione: 8/10 Punti di forza:

Flusso naturale della lingua tedesca
Eccellente gestione dei termini tecnici
Buona conservazione del significato originale
Corretta grammatica e sintassi
Stile coerente in tutto il testo

Punti deboli:

Variazioni minori nella coerenza lessicale
Alcune frasi potrebbero essere più concise

index.de.qwen3-30b-a3b.md - Valutazione: 7.5/10 Punti di forza:

Buona qualità complessiva della traduzione
Espressione naturale in tedesco
Terminologia tecnica tradotta bene
Mantenimento della leggibilità e del flusso
Buona conservazione del significato

Punti deboli:

Alcune piccole incongruenze nella scelta delle parole
Formulazioni occasionalmente un po’ goffe
Articolo mancante nell’ultimo paragrafo “über das [Terrain der] Argumentation”

Classifiche Sommarie

File	Punteggio di Qualità della Traduzione
index.de.mistral-small3.1-24b.md	8.5/10
index.de.qwen3-14b.md	8.0/10
index.de.qwen3-30b-a3b.md	7.5/10
index.de.devstral-24b.md	7.0/10
index.de.qwen3-8b.md	6.5/10

Migliore Traduzione: index.de.mistral-small3.1-24b.md - Flusso tedesco più naturale con eccellente precisione tecnica

Aree di Miglioramento: La versione Qwen3-8b necessita di correzioni grammaticali e di una formulazione più naturale, mentre gli altri hanno bisogno principalmente di piccole raffinatezze nella scelta delle parole e nella coerenza.

Test 2: Traduzione della pagina riguardante i modelli Qwen3 Embedding & Reranker su Ollama.

Sulla base dell’analisi delle traduzioni tedesche rispetto al testo originale inglese, ecco le valutazioni di qualità su una scala da 1 a 10:

File	Modello LLM	Punteggio di Qualità della Traduzione	Commenti
`index.de.devstral-24b.md`	Devstral 24B	8.5/10	Eccellente traduzione complessiva con flusso naturale in tedesco, terminologia tecnica corretta e preservazione completa dei shortcode Hugo. Deduzioni minori per alcune formulazioni leggermente goffe.
`index.de.mistral-small3.1-24b.md`	Mistral Small 3.1 24B	8.7/10	Traduzione di alta qualità con terminologia coerente, flusso naturale in tedesco e preservazione perfetta della formattazione. Leggermente migliore del Devstral.
`index.de.qwen3-8b.md`	Qwen3 8B	6.5/10	Qualità mista — contiene mescolanza tra inglese e tedesco nel paragrafo introduttivo (“The [Qwen3 Embedding and Reranker models]” invece di completo tedesco). Il resto è ben tradotto ma inconsistente.
`index.de.qwen3-14b.md`	Qwen3 14B	8.2/10	Buona traduzione tedesca con terminologia tecnica corretta e flusso naturale. Strutturata e coerente in tutto il testo.
`index.de.qwen3-30b-a3b.md`	Qwen3 30B	9.0/10	Eccellente qualità della traduzione con espressione tedesca molto naturale, coerenza perfetta dei termini tecnici e leggibilità eccezionale. Migliore traduzione complessiva.

Criteri Principali di Valutazione:

Punti di forza osservati nelle traduzioni:

Preservazione dei shortcode Hugo ({ {< ref >}} sintassi)
Precisione dei termini tecnici
Mantenimento della formattazione markdown
Preservazione della struttura delle tabelle
Coerenza delle referenze alle immagini

Differenze di qualità:

Coerenza linguistica - Qwen3 8B aveva problemi di mescolanza tra inglese e tedesco
Flusso naturale in tedesco - Qwen3 30B ha raggiunto l’espressione tedesca più naturale
Precisione tecnica - Tutti i modelli hanno gestito bene i termini tecnici
Preservazione della formattazione - Tutti hanno mantenuto perfettamente la struttura di Hugo

Classifica per Qualità:

Qwen3 30B (9.0/10) - Migliore complessiva
Mistral Small 3.1 24B (8.7/10) - Molto forte
Devstral 24B (8.5/10) - Eccellente
Qwen3 14B (8.2/10) - Buona
Qwen3 8B (6.5/10) - Adeguata con problemi

I modelli più grandi (Qwen3 30B e Mistral Small 3.1 24B) hanno prodotto le traduzioni di migliore qualità, mentre il modello più piccolo Qwen3 8B ha mostrato chiari limiti nella coerenza.

Test 3: Reranking con Ollama e Qwen3 Embedding model - in Go

In sostanza, è un post precedente su questo sito web: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.

Sulla base dell’analisi dettagliata delle traduzioni tedesche, ecco la valutazione comparativa:

Analisi della Qualità della Traduzione (Scala 1-10)

File	Modello	Punteggio	Valutazione Principale
index.de.devstral-24b.md	DeVistral 24B	9/10	Eccellente - Più coerente e professionale
index.de.mistral-small3.1-24b.md	Mistral Small 3.1 24B	8.5/10	Molto Buona - Naturale ma con alcune incoerenze
index.de.qwen3-14b.md	Qwen3 14B	7/10	Buona - Solida con alcuni elementi misti
index.de.qwen3-30b-a3b.md	Qwen3 30B	6.5/10	Accettabile - Contiene inglese non tradotto
index.de.qwen3-8b.md	Qwen3 8B	5.5/10	Scarsa - Multiple fallimenti di traduzione

Analisi Comparativa Dettagliata:

🥇 DeVistral 24B (9/10) - Vincitore Punti di forza:

Precisione tecnica: Utilizza “ollama API-Fehler” (minuscolo, più naturale)
Traduzione coerente: “handelt mit parallelen Anfragen” (formulazione sofisticata)
Qualità professionale: Traduzione completa in tedesco in tutto il testo
Formattazione: Preservazione perfetta della struttura markdown

Problemi minori: Molto pochi, principalmente preferenze stilistiche

🥈 Mistral Small 3.1 24B (8.5/10) Punti di forza:

Flusso naturale in tedesco
Buona terminologia tecnica: “Ollama-API-Fehler” (trattino, stile formale)
Coerenza “verarbeitet parallele Anfragen”

Problemi:

Formulazioni leggermente meno sofisticate in alcuni contesti tecnici
Variazioni minori nella formattazione

🥉 Qwen3 14B (7/10) Punti di forza:

Conservazione generale del significato
Struttura grammaticale corretta in tedesco

Problemi:

Alcune costruzioni goffe
Qualità mista nei termini tecnici
Contiene “```” all’inizio e problemi di formattazione

Qwen3 30B (6.5/10) Flaw Critica:

Contiene inglese non tradotto: “This little” compare direttamente nel testo tedesco
Nonostante la dimensione maggiore del modello, mostra incoerenze nella traduzione
La precisione tecnica è presente ma l’effettiva consegna è difettosa

Qwen3 8B (5.5/10) Problemi principali:

Sezioni non tradotte: “This little” lasciato in inglese
Terminologia incoerente: Utilizzo di “RANGORDNUNG” vs standard “RANGIERUNG”
Flusso povero: Costruzioni tedesche meno naturali
Mostra chiari limiti della dimensione del modello più piccolo

Differenze chiave rilevate:

Traduzione dell’errore API:
- DeVistral: ollama API-Fehler (naturale, minuscolo)
- Altri: Ollama-API-Fehler (formale, con trattino)
Richieste parallele:
- DeVistral: “handelt mit parallelen Anfragen” (sofisticato)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (standard)
- Qwen3-8B: “behandelt parallele Anfragen” (meno preciso)
Intestazioni delle sezioni:
- La maggior parte: “RANGIERUNG NACH ÄHNLICHKEIT” (standard)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (goffa)
Contaminazione inglese:
- Qwen3-30B & Qwen3-8B: “This little” lasciato non tradotto
- Altri: Tradotto correttamente a “Dieses kleine”

Vincitore: DeVistral 24B - Mostra la traduzione tedesca più coerente a livello professionale con terminologia tecnica sofisticata e conversione completa della lingua.

Hehe DeVistral :). Ma è un errore di un altro LLM.

Per un confronto più ampio tra Ollama, vLLM, LocalAI, Docker Model Runner e opzioni cloud — incluso quando scegliere ciascuno per traduzioni o altre attività — vedi il nostro LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

La conclusione semplice: TL;DR

Test 1: Argomento filosofico

Test 2: Traduzione della pagina riguardante i modelli Qwen3 Embedding & Reranker su Ollama.

Test 3: Reranking con Ollama e Qwen3 Embedding model - in Go

Link utili