Converti il contenuto HTML in Markdown utilizzando LLM e Ollama

LLM per estrarre testo da HTML...

Indice

Nella libreria dei modelli Ollama ci sono modelli in grado di convertire contenuti HTML in Markdown, che è utile per compiti di conversione del contenuto. Questa guida fa parte del nostro Strumenti per la Documentazione nel 2026: Markdown, LaTeX, PDF e Flussi di Lavoro per la Stampa hub.

Per esempio, il modello reader-lm che si basa su qwen2, è addestrato per farlo.

llama is pulling html cart

ReaderLM-v2

Ho provato la versione successiva di questo modello - reader-lm-v2. ReaderLM-v2 è costruito su Qwen2.5-1.5B-Instruction. Posso confermare: funziona, ma la conversione è in qualche modo lenta…

Riusciresti a immaginare una pagina HTML di 500KB da convertire e da cui estrarre il testo? Forse ci sono 100000 token? o anche solo 10k token.

Ho preso un esempio di pagina di 121KB e il tempo di conversione sul mio PC è: ~1sec.

Chiamata al comando riga di comando di Ollama

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# Leggi il contenuto del file come prompt
PROMPT="Estrai il contenuto principale dall'HTML fornito e convertiscilo in formato Markdown.\nhtml:\n $(cat "$INPUT_FILE")"

# Chiama Ollama e salva la risposta
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "La risposta di Ollama è stata salvata in $OUTPUT_FILE"