HTML से मार्कडाउन पाठ को LLM Ollama का उपयोग करके कैसे निकालें?

HTML से मार्कडाउन पाठ को एक्सट्रैक्ट करने के लिए LLM Ollama का उपयोग करने पर ReaderLM-v2 मॉडल का उपयोग कर सकते हैं।

HTML सामग्री को मार्कडाउन में बदलें, एलईएम और ओलामा का उपयोग करके

एचटीएमएल से पाठ निकालने के लिए एलईएम का उपयोग करें...

Page content

ओलामा मॉडल पुस्तकालय में ऐसे मॉडल हैं जो HTML कंटेंट को मार्कडाउन में परिवर्तित कर सकते हैं के लिए उपयोगी हैं, जो कंटेंट परिवर्तन कार्यों के लिए उपयोगी हैं।

उदाहरण के लिए, मॉडल reader-lm जो qwen2 पर आधारित है, इस तरह के कार्य करने के लिए प्रशिक्षित है।

लामा HTML कार्ट खींच रहा है

ReaderLM-v2

मैंने अगले ऐसे मॉडल संस्करण का परीक्षण किया है - reader-lm-v2। ReaderLM-v2 Qwen2.5-1.5B-Instruction पर बना है। मैं पुष्टि कर सकता हूं: यह काम करता है लेकिन परिवर्तन कुछ धीमा है…

आपको उस 500KB HTML वेबपेज की कल्पना कर सकते हैं जिसे आप टेक्स्ट निकालना चाहते हैं? शायद 100000 टोकन हो सकते हैं? या चलिए यह तो 10k टोकन भी हो सकते हैं।

मैंने 121KB के एक नमूना पृष्ठ का उपयोग किया और मेरे पीसी पर परिवर्तन समय है: ~1 सेकंड।

ओलामा कमांड लाइन कॉल करना

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# फ़ाइल कंटेंट को प्रॉम्प्ट के रूप में पढ़ें
PROMPT="दिए गए HTML से मुख्य कंटेंट निकालें और इसे मार्कडाउन फॉर्मेट में परिवर्तित करें।\nhtml:\n $(cat "$INPUT_FILE")"

# ओलामा को कॉल करें और प्रतिक्रिया सहेजें
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "ओलामा प्रतिक्रिया $OUTPUT_FILE में सहेजी गई है"

ReaderLM-v2

ओलामा कमांड लाइन कॉल करना

उपयोगी लिंक