Przestawianie kolejności tekstów za pomocą Ollama i Qwen3 Embedding LLM - w języku Go

Wdrażanie RAG? Oto kilka fragmentów kodu w Golang...

Page content

To ta mała przykładowa wersja kodu Go do rerankingu, która wywołuje Ollama w celu wygenerowania wektorów dla zapytania oraz dla każdego kandydującego dokumentu, następnie sortuje malejąco według podobieństwa kosinusowego.

Już wcześniej robiliśmy podobną aktywność - Reranking z użyciem modeli wektorów ale to było w Pythonie, z innym LLM i prawie rok temu.

Inny podobny kod, ale korzystający z Qwen3 Reranker:

llamy o różnych wysokościach - reranking z użyciem Ollama

TL;DR

Wynik wygląda bardzo dobrze, czas przetwarzania to 0,128s na dokument. Pytanie jest traktowane jako dokument. Sortowanie i drukowanie również są uwzględniane w tej statystyce.

Zużycie pamięci przez LLM: Choć rozmiar modelu na dysku (ollama ls) jest mniejszy niż 3 GB

dengcao/Qwen3-Embedding-4B:Q5_K_M           7e8c9ad6885b    2,9 GB

Na GPU VRAM zajmuje (nieco) więcej: 5,5 GB. (ollama ps)

NAME                                 ID              SIZE
dengcao/Qwen3-Embedding-4B:Q5_K_M    7e8c9ad6885b    5,5 GB 

Jeśli masz GPU o pojemności 8 GB - powinno być OK.

Testowanie rerankingu z użyciem wektorów na Ollama - Przykładowy wynik

W wszystkich trzech przypadkach testowych reranking z użyciem wektorów za pomocą modelu dengcao/Qwen3-Embedding-4B:Q5_K_M na Ollama był wspaniały! Zobacz sami.

Mamy 7 plików zawierających pewne teksty opisujące, co ich nazwa pliku mówi:

  • ai_introduction.txt
  • machine_learning.md
  • qwen3-reranking-models.md
  • ollama-parallelism.md
  • ollama-reranking-models.md
  • programming_basics.txt
  • setup.log

testy:

Test rerankingu: Co to jest sztuczna inteligencja i jak działa uczenie maszynowe?

./rnk example_query.txt example_docs/

Używany model wektorów: dengcao/Qwen3-Embedding-4B:Q5_K_M
Podstawowy adres URL Ollama: http://localhost:11434
Przetwarzanie pliku zapytania: example_query.txt, katalog docelowy: example_docs/
Zapytanie: Co to jest sztuczna inteligencja i jak działa uczenie maszynowe?
Znaleziono 7 dokumentów
Wyodrębnianie wektora zapytania...
Przetwarzanie dokumentów...

=== RANKING NA PODSTAWIE PODOBIEŃSTWA ===
1. example_docs/ai_introduction.txt (Wynik: 0,451)
2. example_docs/machine_learning.md (Wynik: 0,388)
3. example_docs/qwen3-reranking-models.md (Wynik: 0,354)
4. example_docs/ollama-parallelism.md (Wynik: 0,338)
5. example_docs/ollama-reranking-models.md (Wynik: 0,318)
6. example_docs/programming_basics.txt (Wynik: 0,296)
7. example_docs/setup.log (Wynik: 0,282)

Przetworzono 7 dokumentów w 0,899s (średnia: 0,128s na dokument)

Test rerankingu: Jak Ollama obsługuje żądania równoległe?

./rnk example_query2.txt example_docs/

Używany model wektorów: dengcao/Qwen3-Embedding-4B:Q5_K_M
Podstawowy adres URL Ollama: http://localhost:11434
Przetwarzanie pliku zapytania: example_query2.txt, katalog docelowy: example_docs/
Zapytanie: Jak Ollama obsługuje żądania równoległe?
Znaleziono 7 dokumentów
Wyodrębnianie wektora zapytania...
Przetwarzanie dokumentów...

=== RANKING NA PODSTAWIE PODOBIEŃSTWA ===
1. example_docs/ollama-parallelism.md (Wynik: 0,557)
2. example_docs/qwen3-reranking-models.md (Wynik: 0,532)
3. example_docs/ollama-reranking-models.md (Wynik: 0,498)
4. example_docs/ai_introduction.txt (Wynik: 0,366)
5. example_docs/machine_learning.md (Wynik: 0,332)
6. example_docs/programming_basics.txt (Wynik: 0,307)
7. example_docs/setup.log (Wynik: 0,257)

Przetworzono 7 dokumentów w 0,858s (średnia: 0,123s na dokument)

Test rerankingu: Jak możemy przeprowadzić reranking dokumentu z użyciem Ollama?

./rnk example_query3.txt example_docs/

Używany model wektorów: dengcao/Qwen3-Embedding-4B:Q5_K_M
Podstawowy adres URL Ollama: http://localhost:11434
Przetwarzanie pliku zapytania: example_query3.txt, katalog docelowy: example_docs/
Zapytanie: Jak możemy przeprowadzić reranking dokumentu z użyciem Ollama?
Znaleziono 7 dokumentów
Wyodrębnianie wektora zapytania...
Przetwarzanie dokumentów...

=== RANKING NA PODSTAWIE PODOBIEŃSTWA ===
1. example_docs/ollama-reranking-models.md (Wynik: 0,552)
2. example_docs/ollama-parallelism.md (Wynik: 0,525)
3. example_docs/qwen3-reranking-models.md (Wynik: 0,524)
4. example_docs/ai_introduction.txt (Wynik: 0,369)
5. example_docs/machine_learning.md (Wynik: 0,346)
6. example_docs/programming_basics.txt (Wynik: 0,316)
7. example_docs/setup.log (Wynik: 0,279)

Przetworzono 7 dokumentów w 0,882s (średnia: 0,126s na dokument)

Kod źródłowy w Go

Wszystko wstaw do folderu i skompiluj tak:

go build -o rnk

Daj spokój, możesz używać go w dowolnym celu rozrywkowym lub komercyjnym, albo wgrać na GitHub, jeśli chcesz. Licencja MIT.

main.go

package main

import (
	"fmt"
	"log"
	"os"
	"sort"
	"time"

	"github.com/spf13/cobra"
)

var rootCmd = &cobra.Command{
	Use:   "rnk [query-file] [target-directory]",
	Short: "System RAG korzystający z wektorów Ollama",
	Long:  "Prosty system RAG, który wyodrębnia wektory i sortuje dokumenty za pomocą Ollama",
	Args:  cobra.ExactArgs(2),
	Run:   runRnk,
}

var (
	embeddingModel string
	ollamaBaseURL  string
)

func init() {
	rootCmd.Flags().StringVarP(&embeddingModel, "model", "m", "dengcao/Qwen3-Embedding-4B:Q5_K_M", "Model wektorów do użycia")
	rootCmd.Flags().StringVarP(&ollamaBaseURL, "url", "u", "http://localhost:11434", "Podstawowy adres URL Ollama")
}

func main() {
	if err := rootCmd.Execute(); err != nil {
		fmt.Println(err)
		os.Exit(1)
	}
}

func runRnk(cmd *cobra.Command, args []string) {
	queryFile := args[0]
	targetDir := args[1]

	startTime := time.Now()

	fmt.Printf("Używany model wektorów: %s\n", embeddingModel)
	fmt.Printf("Podstawowy adres URL Ollama: %s\n", ollamaBaseURL)
	fmt.Printf("Przetwarzanie pliku zapytania: %s, katalog docelowy: %s\n", queryFile, targetDir)

	// Odczytaj zapytanie z pliku
	query, err := readQueryFromFile(queryFile)
	if err != nil {
		log.Fatalf("Błąd odczytu pliku zapytania: %v", err)
	}
	fmt.Printf("Zapytanie: %s\n", query)

	// Znajdź wszystkie pliki tekstowe w katalogu docelowym
	documents, err := findTextFiles(targetDir)
	if err != nil {
		log.Fatalf("Błąd znalezienia plików tekstowych: %v", err)
	}
	fmt.Printf("Znaleziono %d dokumentów\n", len(documents))

	// Wyodrębnij wektory dla zapytania
	fmt.Println("Wyodrębnianie wektora zapytania...")
	queryEmbedding, err := getEmbedding(query, embeddingModel, ollamaBaseURL)
	if err != nil {
		log.Fatalf("Błąd wyodrębniania wektora zapytania: %v", err)
	}

	// Przetwarzanie dokumentów
	fmt.Println("Przetwarzanie dokumentów...")
	validDocs := make([]Document, 0)

	for _, doc := range documents {
		embedding, err := getEmbedding(doc.Content, embeddingModel, ollamaBaseURL)
		if err != nil {
			fmt.Printf("Ostrzeżenie: Nie udało się wyodrębnić wektora dla %s: %v\n", doc.Path, err)
			continue
		}

		similarity := cosineSimilarity(queryEmbedding, embedding)
		doc.Score = similarity
		validDocs = append(validDocs, doc)
	}

	if len(validDocs) == 0 {
		log.Fatalf("Żaden dokument nie mógł zostać przetworzony pomyślnie")
	}

	// Sortuj według wyniku podobieństwa (malejąco)
	sort.Slice(validDocs, func(i, j int) bool {
		return validDocs[i].Score > validDocs[j].Score
	})

	// Wyświetl wyniki
	fmt.Println("\n=== RANKING NA PODSTAWIE PODOBIEŃSTWA ===")
	for i, doc := range validDocs {
		fmt.Printf("%d. %s (Wynik: %.3f)\n", i+1, doc.Path, doc.Score)
	}

	totalTime := time.Since(startTime)
	avgTimePerDoc := totalTime / time.Duration(len(validDocs))

	fmt.Printf("\nPrzetworzono %d dokumentów w %.3fs (średnia: %.3fs na dokument)\n",
		len(validDocs), totalTime.Seconds(), avgTimePerDoc.Seconds())
}

documents.go

package main

import (
	"fmt"
	"os"
	"path/filepath"
	"strings"
)

func readQueryFromFile(filename string) (string, error) {
	content, err := os.ReadFile(filename)
	if err != nil {
		return "", err
	}
	return strings.TrimSpace(string(content)), nil
}

func findTextFiles(dir string) ([]Document, error) {
	var documents []Document

	err := filepath.Walk(dir, func(path string, info os.FileInfo, err error) error {
		if err != nil {
			return err
		}

		if !info.IsDir() && isTextFile(path) {
			content, err := os.ReadFile(path)
			if err != nil {
				fmt.Printf("Ostrzeżenie: Nie udało się odczytać pliku %s: %v\n", path, err)
				return nil
			}

			documents = append(documents, Document{
				Path:    path,
				Content: string(content),
			})
		}

		return nil
	})

	return documents, err
}

func isTextFile(filename string) bool {
	ext := strings.ToLower(filepath.Ext(filename))
	textExts := []string{".txt", ".md", ".rst", ".csv", ".json", ".xml", ".html", ".htm", ".log"}
	for _, textExt := range textExts {
		if ext == textExt {
			return true
		}
	}
	return false
}

embeddings.go

package main

import (
	"bytes"
	"encoding/json"
	"fmt"
	"io"
	"net/http"
)

func getEmbedding(text string, model string, ollamaBaseURL string) ([]float64, error) {
	req := OllamaEmbeddingRequest{
		Model:  model,
		Prompt: text,
	}

	jsonData, err := json.Marshal(req)
	if err != nil {
		return nil, err
	}

	resp, err := http.Post(ollamaBaseURL+"/api/embeddings", "application/json", bytes.NewBuffer(jsonData))
	if err != nil {
		return nil, err
	}
	defer resp.Body.Close()

	if resp.StatusCode != http.StatusOK {
		body, _ := io.ReadAll(resp.Body)
		return nil, fmt.Errorf("błąd API Ollama: %s", string(body))
	}

	var embeddingResp OllamaEmbeddingResponse
	if err := json.NewDecoder(resp.Body).Decode(&embeddingResp); err != nil {
		return nil, err
	}

	return embeddingResp.Embedding, nil
}

similarity.go

package main

func cosineSimilarity(a, b []float64) float64 {
	if len(a) != len(b) {
		return 0
	}

	var dotProduct, normA, normB float64

	for i := range a {
		dotProduct += a[i] * b[i]
		normA += a[i] * a[i]
		normB += b[i] * b[i]
	}

	if normA == 0 || normB == 0 {
		return 0
	}

	return dotProduct / (sqrt(normA) * sqrt(normB))
}

func sqrt(x float64) float64 {
	if x == 0 {
		return 0
	}
	z := x
	for i := 0; i < 10; i++ {
		z = (z + x/z) / 2
	}
	return z
}

types.go

package main

// OllamaEmbeddingRequest reprezentuje ładunek żądania dla API wektorów Ollama
type OllamaEmbeddingRequest struct {
	Model  string `json:"model"`
	Prompt string `json:"prompt"`
}

// OllamaEmbeddingResponse reprezentuje odpowiedź z API wektorów Ollama
type OllamaEmbeddingResponse struct {
	Embedding []float64 `json:"embedding"`
}

// Document reprezentuje dokument z jego metadane
type Document struct {
	Path    string
	Content string
	Score   float64
}

Przydatne linki