RAG

Zmniejsz koszty LLM: strategie optymalizacji tokenów

Optymalizacja tokenów to kluczowe umiejętności, które oddzielają kosztowne aplikacje LLM od doświadczeń zużycia budżetu.

Konwersja HTML na Markdown za pomocą Pythona: Kompletny przewodnik

Konwersja HTML na Markdown to fundamentalna czynność w nowoczesnych przepływach pracy programistycznych, szczególnie przygotowując treści sieciowe do Large Language Models (LLM), systemów dokumentacji lub generatorów stron statycznych takich jak Hugo. Niniejszy przewodnik jest częścią naszego Narzędzi do Dokumentacji w 2026: Markdown, LaTeX, PDF i Pracy z Drukowaniem.

Klienty Go dla Ollama: porównanie SDK oraz przykłady Qwen3/GPT-OSS

Ten przewodnik oferuje kompleksowy przegląd dostępnych Go SDKs dla Ollama i porównuje ich zestawy funkcji.

Oto porównanie między Qwen3:30b a GPT-OSS:20b skupiające się na przestrzeganiu instrukcji i parametrach wydajności, specyfikacjach oraz prędkości.

Integracja Ollama z Pythonem: Przykłady REST API i klienta Pythona

W tym wpisie omówimy dwa sposoby połączenia swojej aplikacji Python z Ollama: 1. Poprzez HTTP REST API; 2. Poprzez oficjalną bibliotekę Pythona do Ollama.

Porównanie strukturalnego wyjścia wśród popularnych dostawców LLM – OpenAI, Gemini, Anthropic, Mistral i AWS Bedrock

Oto porównanie wsparcia w formie obok siebie dla strukturalnego wyjścia (otrzymywanie niezawodnego JSON) wśród popularnych dostawców LLM, wraz z minimalnymi przykładami w Pythonie

Ograniczanie LLM za pomocą strukturalnego wyjścia: Ollama, Qwen3 & Python lub Go

Duże modele językowe (LLMs)
są potężne, ale w środowisku produkcyjnym rzadko chcemy wolnych paragrafów.
Zamiast tego chcemy przewidywalne dane: atrybuty, fakty lub strukturalne obiekty, które można przekazać do aplikacji.
To Strukturalne wyjście LLM.

Reranking dokumentów przy użyciu Ollama i modelu Qwen3 Reranker – w języku Go

Ponieważ standardowe Ollama nie posiada bezpośredniego interfejsu API do ponownego rankingu (reranking), musisz zaimplementować ponowny ranking przy użyciu Qwen3 Reranker w GO, generując wektory (embeddings) dla par zapytanie-dokument i przypisując im oceny.

Ponowne rankowanie tekstów przy użyciu Ollama i Qwen3 Embedding LLM – w Go

Ten niewielki przykład kodu Go do rerankingu wywołuje Ollamę do generowania wektorów dla zapytania oraz dla każdego dokumentu kandydackiego, następnie sortuje wyniki malejąco według podobieństwa kosinusowego.

Modele Qwen3 Embedding i Reranker na Ollama: osiągnięcia stanowiące stan techniki

Modele Qwen3 Embedding i Reranker (https://www.glukhov.org/pl/rag/embeddings/qwen3-embedding-qwen3-reranker-on-ollama/ “Modele Qwen3 Embedding i Reranker na platformie ollama”) to najnowsze wydania z rodziny Qwen, zaprojektowane specjalnie do zaawansowanych zadań związanych z tworzeniem wektorów tekstu (embedding), odnajdywaniem informacji (retrieval) oraz ponownym ocenianiem wyników (reranking).

Dla bezpośredniego odpowiednika Beautiful Soup w Go użyj soup.
Dla obsługi selektorów CSS rozważ goquery.
Dla zapytań XPath użyj htmlquery.
Dla innego rozwiązania inspirowanego Beautiful Soup, spojrz na Node.

Jeśli szukasz odpowiednika Beautiful Soup w Go, kilka bibliotek oferuje podobną funkcjonalność parsowania i skrapowania HTML:

Konwertuj zawartość HTML na Markdown za pomocą LLM i Ollama

W bibliotece modeli Ollama są modele, które potrafią konwertować zawartość HTML na Markdown, co jest przydatne w zadaniach związanych z konwersją treści. Ten przewodnik jest częścią naszego Narzędzia dokumentacyjne w 2026: Markdown, LaTeX, PDF i przepływ pracy druku hub.

Użycie modeli językowych dużych (LLM) nie jest bardzo drogie, może nie być potrzeby zakupu nowego, wspaniałego GPU.
Oto lista, jeśli dostawcy LLM w chmurze z LLM, które hostują.

Gdy serwer Ollama otrzymuje dwa żądania jednocześnie, jego zachowanie zależy od konfiguracji i dostępnych zasobów systemowych.

Modeli DeepSeek pierwszego pokolenia z wydajnością porównywalną do modeli OpenAI-o1, w tym sześć gęstych modeli oddestylowanych z DeepSeek-R1 opartych na Llama i Qwen.

Reranking to drugi krok w systemach RAG (Retrieval Augmented Generation), znajdujący się bezpośrednio między pobieraniem (Retrieving) a generowaniem (Generating).

Zmniejsz koszty LLM: strategie optymalizacji tokenów

Konwersja HTML na Markdown za pomocą Pythona: Kompletny przewodnik

Klienty Go dla Ollama: porównanie SDK oraz przykłady Qwen3/GPT-OSS

Porównanie: Qwen3:30b vs GPT-OSS:20b

Integracja Ollama z Pythonem: Przykłady REST API i klienta Pythona

Porównanie strukturalnego wyjścia wśród popularnych dostawców LLM – OpenAI, Gemini, Anthropic, Mistral i AWS Bedrock

Ograniczanie LLM za pomocą strukturalnego wyjścia: Ollama, Qwen3 & Python lub Go

Reranking dokumentów przy użyciu Ollama i modelu Qwen3 Reranker – w języku Go

Ponowne rankowanie tekstów przy użyciu Ollama i Qwen3 Embedding LLM – w Go

Modele Qwen3 Embedding i Reranker na Ollama: osiągnięcia stanowiące stan techniki

Alternatywy do Beautiful Soup dla Go

Konwertuj zawartość HTML na Markdown za pomocą LLM i Ollama

Dostawcy LLM w chmurze

Jak Ollama Obsługuje Wątki Równoległe

Testowanie Deepseek-R1 na Ollama

Ponowne rankowanie za pomocą modeli osadzeń