LLM Ollama를 사용하여 HTML에서 마크다운 텍스트를 추출하는 방법은 무엇인가요?

LLM Ollama를 사용하여 HTML에서 마크다운 텍스트를 추출하려면 ReaderLM-v2 모델을 사용할 수 있습니다.

LLM과 Ollama를 사용하여 HTML 콘텐츠를 Markdown으로 변환하세요.

HTML에서 텍스트를 추출하는 LLM...

Page content

Ollama 모델 라이브러리에는 HTML 콘텐츠를 Markdown으로 변환할 수 있는 모델이 있습니다. 이는 콘텐츠 변환 작업에 유용합니다.
HTML을 Markdown으로 변환하는 LLM Ollama

예를 들어, qwen2 기반의 reader-lm 모델은 이러한 작업을 수행하도록 훈련되었습니다.

llama is pulling html cart

ReaderLM-v2

다음 버전의 모델인 reader-lm-v2를 시도해 보았습니다.
ReaderLM-v2는 Qwen2.5-1.5B-Instruction 기반으로 만들어졌습니다.
확인해 보니 작동은 잘 됩니다, 하지만 변환 속도는 어느 정도 느릴 수 있습니다…

500KB 크기의 HTML 웹페이지에서 텍스트를 추출해야 한다고 상상해 보세요.
100,000개의 토큰이 있을 수도 있고, 혹은 10,000개의 토큰이 있을 수도 있습니다.

121KB 크기의 샘플 페이지를 사용했을 때, 내 컴퓨터에서의 변환 시간은 약 1초입니다.

Ollama 명령줄 사용법

#!/bin/bash

MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"

# 파일 내용을 프롬프트로 읽음
PROMPT="주어진 HTML에서 주요 콘텐츠를 추출하고 Markdown 형식으로 변환하세요.\nhtml:\n $(cat "$INPUT_FILE")"

# Ollama 실행 및 결과 저장
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"

echo "Ollama 응답이 $OUTPUT_FILE에 저장되었습니다."

ReaderLM-v2

Ollama 명령줄 사용법

유용한 링크