LLM과 Ollama를 사용하여 HTML 콘텐츠를 Markdown으로 변환하세요.
HTML에서 텍스트를 추출하는 LLM...
Page content
Ollama 모델 라이브러리에는 HTML 콘텐츠를 Markdown으로 변환할 수 있는 모델이 있습니다. 이는 콘텐츠 변환 작업에 유용합니다.
HTML을 Markdown으로 변환하는 LLM Ollama
예를 들어, qwen2
기반의 reader-lm
모델은 이러한 작업을 수행하도록 훈련되었습니다.
ReaderLM-v2
다음 버전의 모델인 reader-lm-v2
를 시도해 보았습니다.
ReaderLM-v2는 Qwen2.5-1.5B-Instruction 기반으로 만들어졌습니다.
확인해 보니 작동은 잘 됩니다, 하지만 변환 속도는 어느 정도 느릴 수 있습니다…
500KB 크기의 HTML 웹페이지에서 텍스트를 추출해야 한다고 상상해 보세요.
100,000개의 토큰이 있을 수도 있고, 혹은 10,000개의 토큰이 있을 수도 있습니다.
121KB 크기의 샘플 페이지를 사용했을 때, 내 컴퓨터에서의 변환 시간은 약 1초입니다.
Ollama 명령줄 사용법
#!/bin/bash
MODEL="milkey/reader-lm-v2:latest"
INPUT_FILE="prompt.html"
OUTPUT_FILE="response.md"
# 파일 내용을 프롬프트로 읽음
PROMPT="주어진 HTML에서 주요 콘텐츠를 추출하고 Markdown 형식으로 변환하세요.\nhtml:\n $(cat "$INPUT_FILE")"
# Ollama 실행 및 결과 저장
ollama run "$MODEL" "$PROMPT" > "$OUTPUT_FILE"
echo "Ollama 응답이 $OUTPUT_FILE에 저장되었습니다."