LLMとOllamaを使用してHTMLコンテンツをMarkdownに変換する
HTMLからテキストを抽出するLLM...
目次
Ollama モデルライブラリには、HTML コンテンツを Markdown に変換できるモデルが存在します。これはコンテンツ変換タスクに役立ちます。HTML を Markdown に変換。
例えば、qwen2
に基づいて構築された reader-lm
モデルは、この作業に特化して訓練されています。
ReaderLM-v2
私は次のバージョンのモデル reader-lm-v2
も試してみました。ReaderLM-v2 は Qwen2.5-1.5B-Instruction 上に構築されています。動作することを確認しました:動作確認。ただし、変換処理はやや遅い傾向があります。
500KB の HTML ページからテキストを抽出する必要があると想像してみてください。100,000トークン?それとも10,000トークンでもあるかもしれません。
私は121KBのサンプルページを使用し、私のPCでの変換時間は約1秒でした。
Ollama コマンドラインの呼び出し
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# ファイル内容をプロンプトとして読み込む
PROMPT="指定されたHTMLから主要なコンテンツを抽出し、Markdown形式に変換してください。\nhtml:\n $(cat "$INPUT_FILE")"
# Ollama を呼び出し、結果を保存
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "Ollama の結果は $OUTPUT_FILE に保存されました"