Comparación de la calidad de la traducción de páginas en Hugo - LLMs en Ollama
qwen3 8b, 14b y 30b, devstral 24b, mistral small 24b
En este test estoy comparando cómo diferentes LLMs alojados en Ollama traducen una página Hugo del inglés al alemán. Tres páginas que probé estaban sobre temas diferentes, tenían algún buen markdown con cierta estructura: encabezados, listas, tablas, enlaces, etc.
Todos estos modelos funcionaron en una GPU de NVidia con 16 GB de VRAM, algunos de ellos se ajustaron completamente a la VRAM, otros (24b y 30b) no y se extendieron a la CPU.
No obstante, también probé esos.
Los modelos de Ollama que probé:
- qwen3:8b
- qwen3:14b
- qwen3:30b-a3b
- devstral:24b
- mistral-small3.1:24b
Después de ejecutar los prompts de traducción en todos esos modelos, le pregunté a un modelo inteligente de Anthropic para que analizara la calidad de las traducciones, las comparara y proporcionara métricas para cada modelo.
También probé magistral:24b pero estaba pensando
demasiado, así que era lento y consumía todo el contexto.
Así que - no es adecuado para mi GPU.
La conclusión simple: TL;DR
El mejor es Mistral Small 3.1 24b. No se ajusta a los 16 GB de VRAM, así que fue un poco lento en mi hardware.
Los dos siguientes mejores: Qwen 3 14b y Qwen 3 30b. El 14b se ajusta bien, pero el 30b es un modelo MoE, así que también es bastante rápido. En mi hardware, su velocidad fue similar.
Prueba 1: Tema filosófico
El markdown de la página del sitio web basado en Hugo sobre algún tema filosófico increíble - descripción y ejemplos del Falso Lógico Ad Baculum.
index.de.devstral-24b.md - Calificación: 7/10 Fortalezas:
- Buena traducción de términos técnicos (“argumentum ad baculum Fehlschluss”)
- Mantiene el formato y estructura de los enlaces correctamente
- Traducción precisa de conceptos filosóficos complejos
- Gramática y sintaxis alemanas correctas
Debilidades:
- “verunstaltet” para “tainted” es algo incómodo; “getrübt” sería más natural
- Algunas frases se sienten ligeramente rígidas o demasiado literales
- Problemas menores de fluidez en ciertas oraciones
index.de.mistral-small3.1-24b.md - Calificación: 8.5/10 Fortalezas:
- Fluidez muy natural del idioma alemán
- Excelente traducción de términos técnicos
- Buena preservación del significado y tono originales
- Gramática y estructura de oraciones correctas
- Usa “getrübt” para “tainted”, lo cual es más natural
Debilidades:
- Inconsistencias muy menores en la terminología
- Desviaciones ocasionales ligeras de la estructura original
index.de.qwen3-8b.md - Calificación: 6.5/10 Fortalezas:
- Traducción precisa de los conceptos principales
- Manejo adecuado de términos técnicos
- Mantiene la estructura del artículo
Debilidades:
- Algunas frases incómodas (“kann sich auch in alltäglichen Interaktionen breiten”)
- Menos fluidez natural del alemán en varios pasajes
- Algunas construcciones gramaticales se sienten forzadas
- Palabra faltante en “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (error gramatical)
index.de.qwen3-14b.md - Calificación: 8/10 Fortalezas:
- Fluidez natural del idioma alemán
- Excelente manejo de la terminología técnica
- Buena preservación del significado original
- Gramática y sintaxis correctas
- Estilo coherente a lo largo del texto
Debilidades:
- Variaciones menores en la consistencia de la terminología
- Algunas oraciones podrían ser más concisas
index.de.qwen3-30b-a3b.md - Calificación: 7.5/10 Fortalezas:
- Buena calidad general de la traducción
- Expresión natural del alemán
- Términos técnicos bien traducidos
- Mantiene la legibilidad y fluidez
- Buena preservación del significado
Debilidades:
- Algunas inconsistencias menores en la elección de palabras
- Algunas frases ligeramente incómodas
- Falta de artículo en el párrafo final “über das [Terrain der] Argumentation”
Ranking de Calificaciones
Archivo | Puntuación de Calidad de Traducción |
---|---|
index.de.mistral-small3.1-24b.md | 8.5/10 |
index.de.qwen3-14b.md | 8.0/10 |
index.de.qwen3-30b-a3b.md | 7.5/10 |
index.de.devstral-24b.md | 7.0/10 |
index.de.qwen3-8b.md | 6.5/10 |
Mejor Traducción: index.de.mistral-small3.1-24b.md
- Fluidez más natural del alemán con excelente precisión técnica
Áreas de Mejora: La versión Qwen3-8b necesita correcciones gramaticales y una mayor naturalidad en la redacción, mientras que los demás necesitan principalmente refinamientos menores en la elección de palabras y consistencia.
Prueba 2: Traducción de la página sobre los modelos Qwen3 Embedding & Reranker en Ollama.
Basado en mi análisis de las traducciones alemanas en comparación con el texto original en inglés, aquí están las calificaciones de calidad en una escala de 1 a 10:
Archivo | Modelo LLM | Puntuación de Calidad de Traducción | Comentarios |
---|---|---|---|
index.de.devstral-24b.md |
Devstral 24B | 8.5/10 | Excelente traducción general con fluidez natural del alemán, terminología técnica adecuada y preservación completa de los códigos cortos de Hugo. Deducciones menores por algunas frases ligeramente incómodas. |
index.de.mistral-small3.1-24b.md |
Mistral Small 3.1 24B | 8.7/10 | Muy alta calidad de traducción con terminología coherente, fluidez natural del alemán y preservación perfecta del formato. Ligeramente mejor fluidez que Devstral. |
index.de.qwen3-8b.md |
Qwen3 8B | 6.5/10 | Calidad mixta - contiene mezcla de idioma inglés-alemán en el párrafo inicial (“The [Qwen3 Embedding and Reranker models]” en lugar de completo alemán). El resto está bien traducido pero inconsistente. |
index.de.qwen3-14b.md |
Qwen3 14B | 8.2/10 | Buena traducción alemana con terminología técnica adecuada y fluidez natural. Bien estructurado y coherente a lo largo del texto. |
index.de.qwen3-30b-a3b.md |
Qwen3 30B | 9.0/10 | Excelente calidad de traducción con muy natural expresión del alemán, consistencia perfecta de la terminología técnica y excelente legibilidad. Mejor traducción general. |
Criterios Clave de Evaluación:
Fortalezas observadas en las traducciones:
- Preservación de códigos cortos de Hugo (
{ {< ref >}}
sintaxis) - Precisión en la terminología técnica
- Mantenimiento del formato markdown
- Preservación de la estructura de tablas
- Consistencia en las referencias de imágenes
Diferenciadores de Calidad:
- Consistencia del idioma: Qwen3 8B tuvo problemas de mezcla entre inglés y alemán
- Fluidez natural del alemán: Qwen3 30B logró la expresión más natural del alemán
- Precisión técnica: Todos los modelos manejan bien los términos técnicos
- Preservación del formato: Todos mantuvieron perfectamente la estructura de Hugo
Ranking por Calidad:
- Qwen3 30B (9.0/10) - Mejor general
- Mistral Small 3.1 24B (8.7/10) - Muy fuerte
- Devstral 24B (8.5/10) - Excelente
- Qwen3 14B (8.2/10) - Buena
- Qwen3 8B (6.5/10) - Adecuado con problemas
Los modelos más grandes (Qwen3 30B y Mistral Small 3.1 24B) produjeron las traducciones de mayor calidad, mientras que el modelo más pequeño Qwen3 8B mostró claras limitaciones en la consistencia.
Prueba 3: Reclasificación con Ollama y modelo Qwen3 Embedding - en Go
Básicamente, es un post anterior en este sitio web: Reclasificación de documentos de texto con Ollama y modelo Qwen3 Embedding - en Go.
Basado en mi análisis detallado de las traducciones alemanas, aquí está el análisis comparativo:
Análisis de Calidad de Traducción (Escala 1-10)
Archivo | Modelo | Puntuación | Evaluación Clave |
---|---|---|---|
index.de.devstral-24b.md | DeVistral 24B | 9/10 | Excelente - Más consistente y profesional |
index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.5/10 | Muy Bueno - Natural pero con algunas inconsistencias |
index.de.qwen3-14b.md | Qwen3 14B | 7/10 | Bueno - Sólido con algunos elementos mixtos |
index.de.qwen3-30b-a3b.md | Qwen3 30B | 6.5/10 | Aceptable - Contiene inglés no traducido |
index.de.qwen3-8b.md | Qwen3 8B | 5.5/10 | Pobre - Varios fallos en la traducción |
Análisis Comparativo Detallado:
🥇 DeVistral 24B (9/10) - Ganador Fortalezas:
- Precisión Técnica: Usa “ollama API-Fehler” (minúscula, más natural)
- Traducción Consistente: “handelt mit parallelen Anfragen” (fórmula sofisticada)
- Calidad Profesional: Traducción completa al alemán a lo largo del texto
- Formato: Preservación perfecta de la estructura markdown
Problemas menores: Muy pocos, principalmente preferencias estilísticas
🥈 Mistral Small 3.1 24B (8.5/10) Fortalezas:
- Fluidez natural del alemán
- Buena terminología técnica: “Ollama-API-Fehler” (con guion, estilo formal)
- Consistencia en “verarbeitet parallele Anfragen”
Problemas:
- Ligeramente menos sofisticada en algunos contextos técnicos
- Variaciones menores en el formato
🥉 Qwen3 14B (7/10) Fortalezas:
- Preservación generalmente precisa del significado
- Estructura gramatical alemana correcta
Problemas:
- Algunas construcciones incómodas
- Calidad mixta en la terminología técnica
- Contiene “```” al inicio y problemas de formato
Qwen3 30B (6.5/10) Defecto Crítico:
- Contiene inglés no traducido: “This little” aparece directamente en el texto alemán
- A pesar del tamaño del modelo, muestra inconsistencias en la traducción
- La precisión técnica está presente pero la entrega es defectuosa
Qwen3 8B (5.5/10) Problemas Mayores:
- Secciones no traducidas: “This little” dejado en inglés
- Terminología inconsistente: Usa “RANGORDNUNG” vs estándar “RANGIERUNG”
- Fluidez pobre: Construcciones menos naturales del alemán
- Muestra claramente las limitaciones del tamaño del modelo más pequeño
Diferenciadores Clave Encontrados:
-
Traducción del Error de API:
- DeVistral:
ollama API-Fehler
(natural, minúscula) - Otros:
Ollama-API-Fehler
(formal, con guion)
- DeVistral:
-
Solicitudes Paralelas:
- DeVistral: “handelt mit parallelen Anfragen” (sofisticado)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (estándar)
- Qwen3-8B: “behandelt parallele Anfragen” (menos preciso)
-
Encabezados de Sección:
- La mayoría: “RANGIERUNG NACH ÄHNLICHKEIT” (estándar)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (incómodo)
-
Contaminación de Inglés:
- Qwen3-30B & Qwen3-8B: Dejan “This little” sin traducir
- Otros: Traducen correctamente a “Dieses kleine”
Ganador: DeVistral 24B - Muestra la traducción más consistente a nivel profesional del alemán con terminología técnica sofisticada y conversión completa del idioma.
Jeje DeVistral :). Pero eso es otro error del LLM.
Enlaces útiles
- Reclasificación de documentos de texto con Ollama y modelo Qwen3 Embedding - en Go
- Hoja de trucos de Ollama
- Modelos Qwen3 Embedding & Reranker en Ollama: Rendimiento de vanguardia
- Instalar y configurar la ubicación de los modelos de Ollama
- Cómo maneja Ollama las solicitudes paralelas
- Comparación de LLM: Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 y Phi - En Ollama
- Prueba: Cómo Ollama utiliza el rendimiento de la CPU de Intel y núcleos eficientes
- Comparación de capacidades de resumen de LLM