¿Cómo extraer el texto en formato markdown de HTML usando LLM Ollama?

Para extraer el texto en formato markdown de HTML usando LLM Ollama, puedes utilizar el modelo ReaderLM-v2.

Convierte contenido HTML a Markdown utilizando LLM y Ollama

LLM para extraer texto de HTML...

Índice

En la biblioteca de modelos de Ollama hay modelos que pueden convertir contenido HTML a Markdown, lo cual es útil para tareas de conversión de contenido.

Por ejemplo, el modelo reader-lm, que está basado en qwen2, se entrena para hacer esto.

llama is pulling html cart

ReaderLM-v2

He probado la siguiente versión de este tipo de modelo: reader-lm-v2. ReaderLM-v2 se construye sobre Qwen2.5-1.5B-Instruction. Puedo confirmar: funciona, pero la conversión es algo lenta…

¿Puedes imaginar una página web de 500KB que necesitas convertir para extraer texto? Quizás tenga 100000 tokens, o incluso 10k tokens.

Tomé una página de muestra de 121KB y el tiempo de conversión en mi PC es: ~1 segundo.

Llamada a la línea de comandos de Ollama

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# Leer el contenido del archivo como prompt
PROMPT="Extraer el contenido principal del HTML dado y convertirlo al formato Markdown.\nhtml:\n $(cat "$INPUT_FILE")"

# Llamar a Ollama y guardar la respuesta
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "La respuesta de Ollama se guardó en $OUTPUT_FILE"

ReaderLM-v2

Llamada a la línea de comandos de Ollama

Enlaces útiles