تحويل محتوى HTML إلى Markdown باستخدام نموذج لغوي كبير وollama

استخراج النص من HTML باستخدام نموذج اللغة الكبيرة...

Page content

في مكتبة نماذج Ollama هناك نماذج قادرة تحويل محتوى HTML إلى Markdown، وهو مفيد للمهام المتعلقة بتحويل المحتوى.

على سبيل المثال نموذج reader-lm الذي يعتمد على qwen2، تم تدريبه لإجراء هذا الأمر.

llama is pulling html cart

ReaderLM-v2

لقد جرّبت النسخة التالية من هذا النموذج - reader-lm-v2. ReaderLM-v2 مبني على Qwen2.5-1.5B-Instruction. يمكنني التأكيد: يعمل، ولكن التحويل بطيء نسبيًا…

هل يمكنك تخيل صفحة HTML بحجم 500 كيلو بايت تحتاج إلى تحويلها واستخراج النص منها؟ ربما تحتوي على 100000 وحدة؟ أو دعنا نجعلها حتى 10000 وحدة.

لقد اخترت صفحة نموذجية بحجم 121 كيلو بايت، ووقت تحويلها على جهازي هو: ~1 ثانية.

استدعاء أوامر Ollama من سطر الأوامر

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# قراءة محتوى الملف كمُحفِّز
PROMPT="استخرج المحتوى الرئيسي من HTML المعطى وتحويله إلى تنسيق Markdown.\nhtml:\n $(cat "$INPUT_FILE")"

# استدعاء Ollama وحفظ الاستجابة
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "تم حفظ استجابة Ollama في $OUTPUT_FILE"

روابط مفيدة