Perbandingan kualitas terjemahan halaman Hugo - LLMs pada Ollama

qwen3 8b, 14b dan 30b, devstral 24b, mistral small 24b

Konten Halaman

Dalam uji coba ini saya membandingkan bagaimana berbagai LLM yang dihosting di Ollama menerjemahkan halaman Hugo dari bahasa Inggris ke Jerman. Tiga halaman yang saya uji berbeda topiknya, memiliki beberapa markdown yang menarik dengan struktur tertentu: header, daftar, tabel, tautan, dll.

Semua model ini berjalan di GPU NVidia dengan 16GB VRAM, beberapa dari mereka cocok sepenuhnya ke dalam VRAM, beberapa (24b dan 30b) tidak dan terbagi ke CPU.

Namun demikian, saya juga menguji yang lainnya.

dua halaman - penerjemahan sedang berlangsung

Model-model Ollama yang saya uji:

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

Setelah menjalankan prompt penerjemahan pada semua model tersebut, saya meminta model Anthropic yang cerdas untuk menganalisis kualitas penerjemahan, membandingkan, dan memberikan metrik untuk setiap model.

Saya juga mencoba magistral:24b tetapi terlalu banyak thinking, sehingga lambat dan menghabiskan semua konteks. Jadi - tidak cocok untuk GPU saya.

Kesimpulan sederhana: TL;DR

Yang terbaik adalah Mistral Small 3.1 24b. Tidak cocok ke dalam 16GB VRAM, jadi sedikit lambat di perangkat keras saya.

Dua terbaik berikutnya: Qwen 3 14b dan Qwen 3 30b. 14b cocok dengan baik, tetapi 30b adalah model MoE, jadi cukup cepat juga. Kecepatan mereka di perangkat keras saya mirip.

Uji Coba 1: Topik Filosofis

Markdown dari halaman situs web berbasis Hugo tentang topik filosofis yang menarik - deskripsi dan contoh Fehlschluss Ad Baculum.

index.de.devstral-24b.md - Rating: 7/10 Kekuatan:

  • Terjemahan istilah teknis yang baik (“argumentum ad baculum Fehlschluss”)
  • Mempertahankan format tautan dan struktur yang tepat
  • Terjemahan akurat konsep filosofis kompleks
  • Tata bahasa dan sintaks Jerman yang tepat

Kekurangan:

  • “verunstaltet” untuk “tainted” agak tidak alami; “getrübt” akan lebih alami
  • Beberapa frasa terasa sedikit kaku atau terlalu literal
  • Masalah alur minor di beberapa kalimat

index.de.mistral-small3.1-24b.md - Rating: 8.5/10 Kekuatan:

  • Alur bahasa Jerman yang sangat alami
  • Terjemahan istilah teknis yang luar biasa
  • Pemeliharaan baik makna asli dan nada
  • Tata bahasa dan struktur kalimat yang tepat
  • Menggunakan “getrübt” untuk “tainted” yang lebih alami

Kekurangan:

  • Ketidakkonsistenan minor dalam istilah
  • Deviasi kecil terkadang dari struktur sumber

index.de.qwen3-8b.md - Rating: 6.5/10 Kekuatan:

  • Terjemahan konsep utama yang akurat
  • Penanganan istilah teknis yang tepat
  • Mempertahankan struktur artikel

Kekurangan:

  • Beberapa frasa tidak alami (“kann sich auch in alltäglichen Interaktionen breiten”)
  • Alur bahasa Jerman yang kurang alami di beberapa bagian
  • Beberapa konstruksi tata bahasa terasa dipaksakan
  • Kata yang hilang dalam “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (kesalahan tata bahasa)

index.de.qwen3-14b.md - Rating: 8/10 Kekuatan:

  • Alur bahasa Jerman yang alami
  • Penanganan istilah teknis yang luar biasa
  • Pemeliharaan baik makna asli
  • Tata bahasa dan sintaks yang tepat
  • Gaya yang konsisten sepanjang waktu

Kekurangan:

  • Variasi minor dalam konsistensi istilah
  • Beberapa kalimat bisa lebih ringkas

index.de.qwen3-30b-a3b.md - Rating: 7.5/10 Kekuatan:

  • Kualitas terjemahan secara keseluruhan yang baik
  • Ekspresi bahasa Jerman yang alami
  • Istilah teknis yang diterjemahkan dengan baik
  • Mempertahankan keterbacaan dan alur
  • Pemeliharaan makna yang baik

Kekurangan:

  • Beberapa ketidakkonsistenan minor dalam pilihan kata
  • Frasa yang agak tidak alami secara terkadang
  • Artikel yang hilang dalam paragraf terakhir “über das [Terrain der] Argumentation”

Peringkat Keseluruhan

File Skor Kualitas Terjemahan
index.de.mistral-small3.1-24b.md 8.5/10
index.de.qwen3-14b.md 8.0/10
index.de.qwen3-30b-a3b.md 7.5/10
index.de.devstral-24b.md 7.0/10
index.de.qwen3-8b.md 6.5/10

Terjemahan Terbaik: index.de.mistral-small3.1-24b.md - Alur bahasa Jerman yang paling alami dengan akurasi teknis yang luar biasa

Area untuk Peningkatan: Versi Qwen3-8b membutuhkan koreksi tata bahasa dan frasa yang lebih alami, sementara yang lainnya hanya membutuhkan peningkatan kecil dalam pilihan kata dan konsistensi.

Uji Coba 2: Terjemahan halaman tentang Qwen3 Embedding & Reranker Models di Ollama.

Berdasarkan analisis saya terhadap terjemahan Jerman dibandingkan teks asli bahasa Inggris, berikut adalah penilaian kualitas dalam skala 1-10:

File Model LLM Skor Kualitas Terjemahan Komentar
index.de.devstral-24b.md Devstral 24B 8.5/10 Terjemahan secara keseluruhan yang luar biasa dengan alur bahasa Jerman yang alami, istilah teknis yang tepat, dan preservasi shortcode Hugo yang lengkap. Pengurangan minor untuk beberapa frasa yang sedikit tidak alami.
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.7/10 Kualitas terjemahan yang sangat tinggi dengan istilah konsisten, bahasa Jerman yang alami, dan preservasi format yang sempurna. Alur sedikit lebih baik dibandingkan Devstral.
index.de.qwen3-8b.md Qwen3 8B 6.5/10 Kualitas campuran - mengandung campuran bahasa Inggris-Jerman dalam paragraf pembuka (“The [Qwen3 Embedding and Reranker models]” alih-alih penuh bahasa Jerman). Sisanya diterjemahkan dengan baik tetapi tidak konsisten.
index.de.qwen3-14b.md Qwen3 14B 8.2/10 Terjemahan Jerman yang baik dengan istilah teknis yang tepat dan alur yang alami. Terstruktur dengan baik dan konsisten sepanjang waktu.
index.de.qwen3-30b-a3b.md Qwen3 30B 9.0/10 Kualitas terjemahan yang luar biasa dengan bahasa Jerman yang sangat alami, konsistensi istilah teknis yang sempurna, dan keterbacaan yang luar biasa. Terjemahan terbaik secara keseluruhan.

Kriteria Evaluasi Utama:

Kekuatan yang diamati dalam berbagai terjemahan:

  • Preservasi shortcode Hugo ({ {< ref >}} sintaks)
  • Akurasi istilah teknis
  • Pemeliharaan format markdown
  • Preservasi struktur tabel
  • Konsistensi referensi gambar

Pembeda Kualitas:

  1. Konsistensi bahasa - Qwen3 8B memiliki masalah campuran bahasa Inggris-Jerman
  2. Alur bahasa Jerman yang alami - Qwen3 30B mencapai ekspresi bahasa Jerman yang paling alami
  3. Presisi teknis - Semua model menangani istilah teknis dengan baik
  4. Preservasi format - Semua mempertahankan struktur Hugo secara sempurna

Peringkat Berdasarkan Kualitas:

  1. Qwen3 30B (9.0/10) - Terbaik secara keseluruhan
  2. Mistral Small 3.1 24B (8.7/10) - Sangat kuat
  3. Devstral 24B (8.5/10) - Luar biasa
  4. Qwen3 14B (8.2/10) - Baik
  5. Qwen3 8B (6.5/10) - Cukup dengan masalah

Model-model yang lebih besar (Qwen3 30B dan Mistral Small 3.1 24B) menghasilkan terjemahan berkualitas tertinggi, sementara model Qwen3 8B yang lebih kecil menunjukkan keterbatasan yang jelas dalam konsistensi.

Uji Coba 3: Reranking dengan Ollama dan Qwen3 Embedding model - dalam Go

Secara dasar, ini adalah posting sebelumnya di situs ini: Reranking dokumen teks dengan Ollama dan Qwen3 Embedding model - dalam Go.

Berdasarkan analisis saya yang terperinci terhadap terjemahan Jerman, berikut adalah penilaian perbandingan:

Analisis Kualitas Terjemahan (Skala 1-10)

File Model Skor Penilaian Utama
index.de.devstral-24b.md DeVistral 24B 9/10 Luar biasa - Paling konsisten dan profesional
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.5/10 Sangat Baik - Alami tetapi ketidakkonsistenan minor
index.de.qwen3-14b.md Qwen3 14B 7/10 Baik - Solid dengan beberapa elemen campuran
index.de.qwen3-30b-a3b.md Qwen3 30B 6.5/10 Cukup - Mengandung bahasa Inggris yang tidak diterjemahkan
index.de.qwen3-8b.md Qwen3 8B 5.5/10 Buruk - Banyak kegagalan terjemahan

Analisis Perbandingan Terperinci:

🥇 DeVistral 24B (9/10) - Pemenang Kekuatan:

  • Presisi Teknis: Menggunakan “ollama API-Fehler” (huruf kecil, lebih alami)
  • Konsistensi Terjemahan: “handelt mit parallelen Anfragen” (frasa yang canggih)
  • Kualitas Profesional: Terjemahan Jerman lengkap sepanjang waktu
  • Format: Preservasi struktur markdown yang sempurna

Masalah Minor: Sangat sedikit, mayoritas preferensi gaya

🥈 Mistral Small 3.1 24B (8.5/10) Kekuatan:

  • Alur bahasa Jerman yang alami
  • Istilah teknis yang baik: “Ollama-API-Fehler” (dihyphenkan, gaya formal)
  • Konsistensi “verarbeitet parallele Anfragen”

Masalah:

  • Frasa yang sedikit kurang canggih dalam beberapa konteks teknis
  • Variasi format minor

🥉 Qwen3 14B (7/10) Kekuatan:

  • Pemeliharaan makna secara umum akurat
  • Struktur tata bahasa Jerman yang tepat

Masalah:

  • Beberapa konstruksi tidak alami
  • Kualitas istilah teknis yang bercampur
  • Mengandung “```” di awal dan masalah format

Qwen3 30B (6.5/10) Kekurangan Utama:

  • Mengandung bahasa Inggris yang tidak diterjemahkan: “This little” muncul langsung dalam teks Jerman
  • Meskipun ukuran model yang lebih besar, menunjukkan ketidakkonsistenan dalam terjemahan
  • Akurasi teknis hadir tetapi penyampaian bermasalah

Qwen3 8B (5.5/10) Masalah Utama:

  • Bagian yang tidak diterjemahkan: “This little” tetap dalam bahasa Inggris
  • Ketidakkonsistenan istilah: Menggunakan “RANGORDNUNG” vs standar “RANGIERUNG”
  • Alur yang buruk: Konstruksi bahasa Jerman yang kurang alami
  • Menunjukkan keterbatasan jelas dari ukuran model yang lebih kecil

Pembeda Utama yang Ditemukan:

  1. Terjemahan Kesalahan API:

    • DeVistral: ollama API-Fehler (alami, huruf kecil)
    • Lainnya: Ollama-API-Fehler (formal, dihyphenkan)
  2. Permintaan Paralel:

    • DeVistral: “handelt mit parallelen Anfragen” (canggih)
    • Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (standar)
    • Qwen3-8B: “behandelt parallele Anfragen” (kurang presisi)
  3. Header Bagian:

    • Kebanyakan: “RANGIERUNG NACH ÄHNLICHKEIT” (standar)
    • Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (tidak alami)
  4. Kontaminasi Bahasa Inggris:

    • Qwen3-30B & Qwen3-8B: Meninggalkan “This little” tanpa terjemahan
    • Lainnya: Terjemahkan dengan baik ke “Dieses kleine”

Pemenang: DeVistral 24B - Menunjukkan terjemahan bahasa Jerman tingkat profesional yang paling konsisten dengan istilah teknis yang canggih dan konversi bahasa yang lengkap.


Hehe DeVistral :). Tapi itu adalah kesalahan LLM lainnya.

Tautan yang Berguna