Converti il contenuto HTML in Markdown utilizzando LLM e Ollama
LLM per estrarre testo da HTML...
Nella libreria dei modelli Ollama ci sono modelli in grado di convertire contenuti HTML in Markdown, che è utile per compiti di conversione del contenuto. Questa guida fa parte del nostro Strumenti per la Documentazione nel 2026: Markdown, LaTeX, PDF e Flussi di Lavoro per la Stampa hub.
Per esempio, il modello reader-lm che si basa su qwen2, è addestrato per farlo.

ReaderLM-v2
Ho provato la versione successiva di questo modello - reader-lm-v2.
ReaderLM-v2 è costruito su Qwen2.5-1.5B-Instruction.
Posso confermare: funziona, ma la conversione è in qualche modo lenta…
Riusciresti a immaginare una pagina HTML di 500KB da convertire e da cui estrarre il testo? Forse ci sono 100000 token? o anche solo 10k token.
Ho preso un esempio di pagina di 121KB e il tempo di conversione sul mio PC è: ~1sec.
Chiamata al comando riga di comando di Ollama
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# Leggi il contenuto del file come prompt
PROMPT="Estrai il contenuto principale dall'HTML fornito e convertiscilo in formato Markdown.\nhtml:\n $(cat "$INPUT_FILE")"
# Chiama Ollama e salva la risposta
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "La risposta di Ollama è stata salvata in $OUTPUT_FILE"