Как извлечь текст в формате Markdown из HTML с помощью LLM Ollama?

Чтобы извлечь текст в формате markdown из HTML с помощью LLM Ollama, можно использовать модель ReaderLM-v2.

Преобразование HTML-контента в Markdown с использованием LLM и Ollama

Использование языковой модели для извлечения текста из HTML...

Содержимое страницы

В библиотеке моделей Ollama есть модели, способные преобразовывать HTML-контент в Markdown, что полезно для задач конвертации контента.

Например, модель reader-lm, основанная на qwen2, обучена выполнять эту задачу.

llama тянет html тележку

ReaderLM-v2

Я попробовал следующую версию такой модели - reader-lm-v2. ReaderLM-v2 построен на Qwen2.5-1.5B-Instruction. Могу подтвердить: она работает, но конвертация какая-то медленная…

Можете представить себе 500КБ веб-страницу, которую нужно преобразовать, извлечь текст из? Возможно, там 100000 токенов? или пусть будет даже 10к токенов.

Я взял образец страницы на 121КБ и время конвертации на моем ПК составляет: 1 сек.

Вызов командной строки Ollama

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# Чтение содержимого файла как запроса
PROMPT="Извлеките основной контент из данного HTML и преобразуйте его в формат Markdown.\nhtml:\n $(cat "$INPUT_FILE")"

# Вызов Ollama и сохранение ответа
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "Ответ Ollama сохранен в $OUTPUT_FILE"

ReaderLM-v2

Вызов командной строки Ollama

Полезные ссылки