تحويل محتوى HTML إلى Markdown باستخدام نموذج لغوي كبير وollama
استخراج النص من HTML باستخدام نموذج اللغة الكبيرة...
Page content
في مكتبة نماذج Ollama هناك نماذج قادرة تحويل محتوى HTML إلى Markdown، وهو مفيد للمهام المتعلقة بتحويل المحتوى.
على سبيل المثال نموذج reader-lm
الذي يعتمد على qwen2
، تم تدريبه لإجراء هذا الأمر.
ReaderLM-v2
لقد جرّبت النسخة التالية من هذا النموذج - reader-lm-v2
.
ReaderLM-v2 مبني على Qwen2.5-1.5B-Instruction.
يمكنني التأكيد: يعمل، ولكن التحويل بطيء نسبيًا…
هل يمكنك تخيل صفحة HTML بحجم 500 كيلو بايت تحتاج إلى تحويلها واستخراج النص منها؟ ربما تحتوي على 100000 وحدة؟ أو دعنا نجعلها حتى 10000 وحدة.
لقد اخترت صفحة نموذجية بحجم 121 كيلو بايت، ووقت تحويلها على جهازي هو: ~1 ثانية.
استدعاء أوامر Ollama من سطر الأوامر
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# قراءة محتوى الملف كمُحفِّز
PROMPT="استخرج المحتوى الرئيسي من HTML المعطى وتحويله إلى تنسيق Markdown.\nhtml:\n $(cat "$INPUT_FILE")"
# استدعاء Ollama وحفظ الاستجابة
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "تم حفظ استجابة Ollama في $OUTPUT_FILE"