Преобразование HTML-контента в Markdown с использованием LLM и Ollama
Использование языковой модели для извлечения текста из HTML...
Содержимое страницы
В библиотеке моделей Ollama есть модели, способные преобразовывать HTML-контент в Markdown, что полезно для задач конвертации контента.
Например, модель reader-lm
, основанная на qwen2
, обучена выполнять эту задачу.
ReaderLM-v2
Я попробовал следующую версию такой модели - reader-lm-v2
.
ReaderLM-v2 построен на Qwen2.5-1.5B-Instruction.
Могу подтвердить: она работает, но конвертация какая-то медленная…
Можете представить себе 500КБ веб-страницу, которую нужно преобразовать, извлечь текст из? Возможно, там 100000 токенов? или пусть будет даже 10к токенов.
Я взял образец страницы на 121КБ и время конвертации на моем ПК составляет: 1 сек.
Вызов командной строки Ollama
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# Чтение содержимого файла как запроса
PROMPT="Извлеките основной контент из данного HTML и преобразуйте его в формат Markdown.\nhtml:\n $(cat "$INPUT_FILE")"
# Вызов Ollama и сохранение ответа
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "Ответ Ollama сохранен в $OUTPUT_FILE"
Полезные ссылки
- Как Ollama использует производительность Intel CPU и эффективные ядра
- Как Ollama обрабатывает параллельные запросы
- Облачные поставщики LLM
- Шпаргалка по Ollama
- Перемещение моделей Ollama на другой диск или папку
- Альтернативы Beautiful Soup для Go
- Переранжирование текстовых документов с использованием Ollama и модели Qwen3 Embedding - на Go