Convierte contenido HTML a Markdown utilizando LLM y Ollama
LLM para extraer texto de HTML...
Índice
En la biblioteca de modelos de Ollama hay modelos que pueden convertir contenido HTML a Markdown, lo cual es útil para tareas de conversión de contenido.
Por ejemplo, el modelo reader-lm
, que está basado en qwen2
, se entrena para hacer esto.
ReaderLM-v2
He probado la siguiente versión de este tipo de modelo: reader-lm-v2
.
ReaderLM-v2 se construye sobre Qwen2.5-1.5B-Instruction.
Puedo confirmar: funciona, pero la conversión es algo lenta…
¿Puedes imaginar una página web de 500KB que necesitas convertir para extraer texto? Quizás tenga 100000 tokens, o incluso 10k tokens.
Tomé una página de muestra de 121KB y el tiempo de conversión en mi PC es: ~1 segundo.
Llamada a la línea de comandos de Ollama
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# Leer el contenido del archivo como prompt
PROMPT="Extraer el contenido principal del HTML dado y convertirlo al formato Markdown.\nhtml:\n $(cat "$INPUT_FILE")"
# Llamar a Ollama y guardar la respuesta
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "La respuesta de Ollama se guardó en $OUTPUT_FILE"
Enlaces útiles
- Cómo Ollama utiliza el rendimiento de los núcleos de CPU de Intel y los núcleos eficientes
- Cómo Ollama maneja solicitudes paralelas
- Proveedores de LLM en la nube
- Guía rápida de Ollama
- Mover modelos de Ollama a un disco o carpeta diferente
- Alternativas a Beautiful Soup para Go
- Reclasificación de documentos de texto con Ollama y el modelo de incrustación Qwen3 - en Go