Comment extraire le texte markdown d’HTML à l’aide de LLM Ollama ?

Pour extraire le texte en markdown à partir du HTML à l’aide de LLM Ollama, vous pouvez utiliser le modèle ReaderLM-v2.

Convertir du contenu HTML en Markdown à l'aide d'un LLM et d'Ollama

LLM pour extraire du texte à partir d'HTML...

Sommaire

Dans la bibliothèque de modèles Ollama, il existe des modèles capables de convertir du contenu HTML en Markdown, ce qui est utile pour les tâches de conversion de contenu.

Par exemple, le modèle reader-lm, basé sur qwen2, est entraîné pour effectuer cette tâche.

llama is pulling html cart

ReaderLM-v2

J’ai essayé la version suivante de ce type de modèle : reader-lm-v2. ReaderLM-v2 est construit sur Qwen2.5-1.5B-Instruction. Je peux confirmer : ça fonctionne, mais la conversion est quelque peu lente…

Pensez-vous à une page HTML de 500 Ko dont vous devez extraire le texte ? Peut-être qu’elle contient 100 000 tokens ? ou même 10 000 tokens.

J’ai pris un exemple de page de 121 Ko et le temps de conversion sur mon PC est : ~1 seconde.

Appel de la ligne de commande Ollama

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# Lire le contenu du fichier comme prompt
PROMPT="Extrayez le contenu principal du HTML donné et convertissez-le au format Markdown.\nhtml:\n $(cat "$INPUT_FILE")"

# Appeler Ollama et sauvegarder la réponse
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "La réponse d'Ollama a été sauvegardée dans $OUTPUT_FILE"

ReaderLM-v2

Appel de la ligne de commande Ollama

Liens utiles