Convertir du contenu HTML en Markdown à l'aide d'un LLM et d'Ollama
LLM pour extraire du texte à partir d'HTML...
Sommaire
Dans la bibliothèque de modèles Ollama, il existe des modèles capables de convertir du contenu HTML en Markdown, ce qui est utile pour les tâches de conversion de contenu.
Par exemple, le modèle reader-lm
, basé sur qwen2
, est entraîné pour effectuer cette tâche.
ReaderLM-v2
J’ai essayé la version suivante de ce type de modèle : reader-lm-v2
.
ReaderLM-v2 est construit sur Qwen2.5-1.5B-Instruction.
Je peux confirmer : ça fonctionne, mais la conversion est quelque peu lente…
Pensez-vous à une page HTML de 500 Ko dont vous devez extraire le texte ? Peut-être qu’elle contient 100 000 tokens ? ou même 10 000 tokens.
J’ai pris un exemple de page de 121 Ko et le temps de conversion sur mon PC est : ~1 seconde.
Appel de la ligne de commande Ollama
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# Lire le contenu du fichier comme prompt
PROMPT="Extrayez le contenu principal du HTML donné et convertissez-le au format Markdown.\nhtml:\n $(cat "$INPUT_FILE")"
# Appeler Ollama et sauvegarder la réponse
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "La réponse d'Ollama a été sauvegardée dans $OUTPUT_FILE"
Liens utiles
- Comment Ollama utilise les cœurs de performance et les cœurs efficaces d’Intel
- Comment Ollama gère les requêtes parallèles
- Fournisseurs de modèles LLM en cloud
- Feuille de triche d’Ollama
- Déplacer les modèles Ollama vers un autre disque ou dossier
- Alternatives à Beautiful Soup pour Go
- Reranking des documents texte avec Ollama et modèle d’embedding Qwen3 - en Go