Confronto della qualità della traduzione delle pagine di Hugo - LLM su Ollama
qwen3 8b, 14b e 30b, devstral 24b, mistral small 24b
In questo test sto confrontando come diversi LLM ospitati su Ollama traducono una pagina Hugo dall’inglese al tedesco.
Per vedere come Ollama si confronta con altre infrastrutture locali e cloud per LLM — vLLM, Docker Model Runner, LocalAI e fornitori cloud — controlla LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.
Tre pagine ho testato su diversi argomenti, avevano alcuni bei markdown con una certa struttura: titoli, elenchi, tabelle, link, ecc.
Tutti questi modelli hanno funzionato su GPU NVIDIA con 16 GB di VRAM, alcuni di loro si sono adattati completamente alla VRAM, alcuni (24b e 30b) non lo hanno fatto e si sono spostati sulla CPU.
Tuttavia, ho testato anche questi ultimi.

I modelli Ollama che ho testato:
- qwen3:8b
- qwen3:14b
- qwen3:30b-a3b
- devstral:24b
- mistral-small3.1:24b
Dopo aver eseguito i prompt di traduzione su tutti questi modelli, ho chiesto al modello Anthropic intelligente di analizzare la qualità delle traduzioni, confrontarle e fornire metriche per ogni modello.
Ho anche provato magistral:24b ma era pensare troppo, quindi era lento e consumava tutto il contesto.
Quindi — non adatto alla mia GPU.
La conclusione semplice: TL;DR
Il migliore è Mistral Small 3.1 24b. Non si adatta ai 16 GB di VRAM, quindi era un po’ lento sul mio hardware.
I due successivi migliori: Qwen 3 14b e Qwen 3 30b. Il 14b si adatta bene, ma il 30b è un modello MoE, quindi abbastanza veloce. Sul mio hardware le loro velocità erano simili.
Test 1: Argomento filosofico
Il markdown della pagina del sito web basato su Hugo su un fantastico argomento filosofico — descrizione e esempi del fallimento logico Ad Baculum.
index.de.devstral-24b.md - Valutazione: 7/10 Punti di forza:
- Buona traduzione dei termini tecnici (“argumentum ad baculum Fehlschluss”)
- Mantiene la corretta formattazione dei link e la struttura
- Traduzione accurata di concetti filosofici complessi
- Corretta grammatica e sintassi tedesca
Punti deboli:
- “verunstaltet” per “tainted” è un po’ goffo; “getrübt” sarebbe più naturale
- Alcune frasi sembrano un po’ rigide o troppo letterali
- Problemi minori di flusso in alcune frasi
index.de.mistral-small3.1-24b.md - Valutazione: 8.5/10 Punti di forza:
- Flusso naturale della lingua tedesca
- Eccellente traduzione dei termini tecnici
- Buona conservazione del significato originale e del tono
- Corretta grammatica e struttura delle frasi
- Utilizzo di “getrübt” per “tainted” che è più naturale
Punti deboli:
- Inconsistenze molto minori nel lessico
- Deviazioni occasionali leggere dalla struttura originale
index.de.qwen3-8b.md - Valutazione: 6.5/10 Punti di forza:
- Traduzione accurata dei concetti principali
- Gestione corretta dei termini tecnici
- Mantenimento della struttura dell’articolo
Punti deboli:
- Alcune formulazioni goffe (“kann sich auch in alltäglichen Interaktionen breiten”)
- Flusso tedesco meno naturale in diverse passaggi
- Alcune costruzioni grammaticali sembrano forzate
- Parola mancante in “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (errore grammaticale)
index.de.qwen3-14b.md - Valutazione: 8/10 Punti di forza:
- Flusso naturale della lingua tedesca
- Eccellente gestione dei termini tecnici
- Buona conservazione del significato originale
- Corretta grammatica e sintassi
- Stile coerente in tutto il testo
Punti deboli:
- Variazioni minori nella coerenza lessicale
- Alcune frasi potrebbero essere più concise
index.de.qwen3-30b-a3b.md - Valutazione: 7.5/10 Punti di forza:
- Buona qualità complessiva della traduzione
- Espressione naturale in tedesco
- Terminologia tecnica tradotta bene
- Mantenimento della leggibilità e del flusso
- Buona conservazione del significato
Punti deboli:
- Alcune piccole incongruenze nella scelta delle parole
- Formulazioni occasionalmente un po’ goffe
- Articolo mancante nell’ultimo paragrafo “über das [Terrain der] Argumentation”
Classifiche Sommarie
| File | Punteggio di Qualità della Traduzione |
|---|---|
| index.de.mistral-small3.1-24b.md | 8.5/10 |
| index.de.qwen3-14b.md | 8.0/10 |
| index.de.qwen3-30b-a3b.md | 7.5/10 |
| index.de.devstral-24b.md | 7.0/10 |
| index.de.qwen3-8b.md | 6.5/10 |
Migliore Traduzione: index.de.mistral-small3.1-24b.md - Flusso tedesco più naturale con eccellente precisione tecnica
Aree di Miglioramento: La versione Qwen3-8b necessita di correzioni grammaticali e di una formulazione più naturale, mentre gli altri hanno bisogno principalmente di piccole raffinatezze nella scelta delle parole e nella coerenza.
Test 2: Traduzione della pagina riguardante i modelli Qwen3 Embedding & Reranker su Ollama.
Sulla base dell’analisi delle traduzioni tedesche rispetto al testo originale inglese, ecco le valutazioni di qualità su una scala da 1 a 10:
| File | Modello LLM | Punteggio di Qualità della Traduzione | Commenti |
|---|---|---|---|
index.de.devstral-24b.md |
Devstral 24B | 8.5/10 | Eccellente traduzione complessiva con flusso naturale in tedesco, terminologia tecnica corretta e preservazione completa dei shortcode Hugo. Deduzioni minori per alcune formulazioni leggermente goffe. |
index.de.mistral-small3.1-24b.md |
Mistral Small 3.1 24B | 8.7/10 | Traduzione di alta qualità con terminologia coerente, flusso naturale in tedesco e preservazione perfetta della formattazione. Leggermente migliore del Devstral. |
index.de.qwen3-8b.md |
Qwen3 8B | 6.5/10 | Qualità mista — contiene mescolanza tra inglese e tedesco nel paragrafo introduttivo (“The [Qwen3 Embedding and Reranker models]” invece di completo tedesco). Il resto è ben tradotto ma inconsistente. |
index.de.qwen3-14b.md |
Qwen3 14B | 8.2/10 | Buona traduzione tedesca con terminologia tecnica corretta e flusso naturale. Strutturata e coerente in tutto il testo. |
index.de.qwen3-30b-a3b.md |
Qwen3 30B | 9.0/10 | Eccellente qualità della traduzione con espressione tedesca molto naturale, coerenza perfetta dei termini tecnici e leggibilità eccezionale. Migliore traduzione complessiva. |
Criteri Principali di Valutazione:
Punti di forza osservati nelle traduzioni:
- Preservazione dei shortcode Hugo (
{ {< ref >}}sintassi) - Precisione dei termini tecnici
- Mantenimento della formattazione markdown
- Preservazione della struttura delle tabelle
- Coerenza delle referenze alle immagini
Differenze di qualità:
- Coerenza linguistica - Qwen3 8B aveva problemi di mescolanza tra inglese e tedesco
- Flusso naturale in tedesco - Qwen3 30B ha raggiunto l’espressione tedesca più naturale
- Precisione tecnica - Tutti i modelli hanno gestito bene i termini tecnici
- Preservazione della formattazione - Tutti hanno mantenuto perfettamente la struttura di Hugo
Classifica per Qualità:
- Qwen3 30B (9.0/10) - Migliore complessiva
- Mistral Small 3.1 24B (8.7/10) - Molto forte
- Devstral 24B (8.5/10) - Eccellente
- Qwen3 14B (8.2/10) - Buona
- Qwen3 8B (6.5/10) - Adeguata con problemi
I modelli più grandi (Qwen3 30B e Mistral Small 3.1 24B) hanno prodotto le traduzioni di migliore qualità, mentre il modello più piccolo Qwen3 8B ha mostrato chiari limiti nella coerenza.
Test 3: Reranking con Ollama e Qwen3 Embedding model - in Go
In sostanza, è un post precedente su questo sito web: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.
Sulla base dell’analisi dettagliata delle traduzioni tedesche, ecco la valutazione comparativa:
Analisi della Qualità della Traduzione (Scala 1-10)
| File | Modello | Punteggio | Valutazione Principale |
|---|---|---|---|
| index.de.devstral-24b.md | DeVistral 24B | 9/10 | Eccellente - Più coerente e professionale |
| index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.5/10 | Molto Buona - Naturale ma con alcune incoerenze |
| index.de.qwen3-14b.md | Qwen3 14B | 7/10 | Buona - Solida con alcuni elementi misti |
| index.de.qwen3-30b-a3b.md | Qwen3 30B | 6.5/10 | Accettabile - Contiene inglese non tradotto |
| index.de.qwen3-8b.md | Qwen3 8B | 5.5/10 | Scarsa - Multiple fallimenti di traduzione |
Analisi Comparativa Dettagliata:
🥇 DeVistral 24B (9/10) - Vincitore Punti di forza:
- Precisione tecnica: Utilizza “ollama API-Fehler” (minuscolo, più naturale)
- Traduzione coerente: “handelt mit parallelen Anfragen” (formulazione sofisticata)
- Qualità professionale: Traduzione completa in tedesco in tutto il testo
- Formattazione: Preservazione perfetta della struttura markdown
Problemi minori: Molto pochi, principalmente preferenze stilistiche
🥈 Mistral Small 3.1 24B (8.5/10) Punti di forza:
- Flusso naturale in tedesco
- Buona terminologia tecnica: “Ollama-API-Fehler” (trattino, stile formale)
- Coerenza “verarbeitet parallele Anfragen”
Problemi:
- Formulazioni leggermente meno sofisticate in alcuni contesti tecnici
- Variazioni minori nella formattazione
🥉 Qwen3 14B (7/10) Punti di forza:
- Conservazione generale del significato
- Struttura grammaticale corretta in tedesco
Problemi:
- Alcune costruzioni goffe
- Qualità mista nei termini tecnici
- Contiene “```” all’inizio e problemi di formattazione
Qwen3 30B (6.5/10) Flaw Critica:
- Contiene inglese non tradotto: “This little” compare direttamente nel testo tedesco
- Nonostante la dimensione maggiore del modello, mostra incoerenze nella traduzione
- La precisione tecnica è presente ma l’effettiva consegna è difettosa
Qwen3 8B (5.5/10) Problemi principali:
- Sezioni non tradotte: “This little” lasciato in inglese
- Terminologia incoerente: Utilizzo di “RANGORDNUNG” vs standard “RANGIERUNG”
- Flusso povero: Costruzioni tedesche meno naturali
- Mostra chiari limiti della dimensione del modello più piccolo
Differenze chiave rilevate:
-
Traduzione dell’errore API:
- DeVistral:
ollama API-Fehler(naturale, minuscolo) - Altri:
Ollama-API-Fehler(formale, con trattino)
- DeVistral:
-
Richieste parallele:
- DeVistral: “handelt mit parallelen Anfragen” (sofisticato)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (standard)
- Qwen3-8B: “behandelt parallele Anfragen” (meno preciso)
-
Intestazioni delle sezioni:
- La maggior parte: “RANGIERUNG NACH ÄHNLICHKEIT” (standard)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (goffa)
-
Contaminazione inglese:
- Qwen3-30B & Qwen3-8B: “This little” lasciato non tradotto
- Altri: Tradotto correttamente a “Dieses kleine”
Vincitore: DeVistral 24B - Mostra la traduzione tedesca più coerente a livello professionale con terminologia tecnica sofisticata e conversione completa della lingua.
Hehe DeVistral :). Ma è un errore di un altro LLM.
Per un confronto più ampio tra Ollama, vLLM, LocalAI, Docker Model Runner e opzioni cloud — incluso quando scegliere ciascuno per traduzioni o altre attività — vedi il nostro LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.