Ollama

Znalazłem pewne ciekawe testy wydajności GPT-OSS 120b działającego na Ollama na trzech różnych platformach: NVIDIA DGX Spark, Mac Studio, i RTX 4080. Model GPT-OSS 120b z biblioteki Ollama waży 65 GB, co oznacza, że nie mieści się w 16 GB VRAM na RTX 4080 (ani w nowszej RTX 5080).

Docker Model Runner vs Ollama (2026): Który jest lepszy do lokalnych modeli LLM?

Uruchamianie dużych modeli językowych (LLM) lokalnie staje się coraz bardziej popularne ze względu na prywatność, kontrolę kosztów i możliwości offline. Landscape zmienił się znacząco w kwietniu 2025 roku, gdy Docker wprowadził Docker Model Runner (DMR), oficjalne rozwiązanie do wdrażania modeli AI.

Klienty Go dla Ollama: porównanie SDK oraz przykłady Qwen3/GPT-OSS

Ten przewodnik oferuje kompleksowy przegląd dostępnych Go SDKs dla Ollama i porównuje ich zestawy funkcji.

Oto porównanie między Qwen3:30b a GPT-OSS:20b skupiające się na przestrzeganiu instrukcji i parametrach wydajności, specyfikacjach oraz prędkości.

Integracja Ollama z Pythonem: Przykłady REST API i klienta Pythona

W tym wpisie omówimy dwa sposoby połączenia swojej aplikacji Python z Ollama: 1. Poprzez HTTP REST API; 2. Poprzez oficjalną bibliotekę Pythona do Ollama.

Problemy z wyjściowym formatem strukturyzowanym w Ollama GPT-OSS

Modely GPT-OSS z Ollama mają powtarzające się problemy z obsługą strukturalnego wyjścia, szczególnie gdy są używane wraz z frameworkami takimi jak LangChain, OpenAI SDK, vllm i innymi.

Ograniczanie LLM za pomocą strukturalnego wyjścia: Ollama, Qwen3 & Python lub Go

Duże modele językowe (LLMs)
są potężne, ale w środowisku produkcyjnym rzadko chcemy wolnych paragrafów.
Zamiast tego chcemy przewidywalne dane: atrybuty, fakty lub strukturalne obiekty, które można przekazać do aplikacji.
To Strukturalne wyjście LLM.

Przydzielanie pamięci i harmonogramowanie modeli w nowej wersji Ollama - v0.12.1

Oto porównanie jak dużo VRAM nowa wersja Ollama przydziela modelowi z poprzednią wersją Ollama. Nowa wersja jest gorsza.

Enshittification Ollama – wczesne objawy

Ollama szybko stało się jednym z najpopularniejszych narzędzi do uruchamiania modeli językowych na lokalnym komputerze.
Jego proste CLI i zoptymalizowane zarządzanie modelami sprawiły, że stało się preferowanym wyborem dla programistów, którzy chcą pracować z modelami AI poza chmurą.

Interfejsy chatu dla lokalnych instancji Ollama

Lokalnie hostowane Ollama umożliwia uruchomienie dużych modeli językowych na własnym komputerze, ale korzystanie z niego za pośrednictwem wiersza poleceń nie jest przyjazne dla użytkownika. Oto kilka projektów open source, które oferują interfejsy stylu ChatGPT, łączące się z lokalnym Ollama.

Reranking dokumentów przy użyciu Ollama i modelu Qwen3 Reranker – w języku Go

Ponieważ standardowe Ollama nie posiada bezpośredniego interfejsu API do ponownego rankingu (reranking), musisz zaimplementować ponowny ranking przy użyciu Qwen3 Reranker w GO, generując wektory (embeddings) dla par zapytanie-dokument i przypisując im oceny.

Porównanie jakości tłumaczenia stron w Hugo – LLMs na Ollama

W tym teście porównuję, jak różne LLMs hostowane na Ollama tłumaczą stronę Hugo z języka angielskiego na niemiecki.

Ponowne rankowanie tekstów przy użyciu Ollama i Qwen3 Embedding LLM – w Go

Ten niewielki przykład kodu Go do rerankingu wywołuje Ollamę do generowania wektorów dla zapytania oraz dla każdego dokumentu kandydackiego, następnie sortuje wyniki malejąco według podobieństwa kosinusowego.

Modele Qwen3 Embedding i Reranker na Ollama: osiągnięcia stanowiące stan techniki

Modele Qwen3 Embedding i Reranker (https://www.glukhov.org/pl/rag/embeddings/qwen3-embedding-qwen3-reranker-on-ollama/ “Modele Qwen3 Embedding i Reranker na platformie ollama”) to najnowsze wydania z rodziny Qwen, zaprojektowane specjalnie do zaawansowanych zadań związanych z tworzeniem wektorów tekstu (embedding), odnajdywaniem informacji (retrieval) oraz ponownym ocenianiem wyników (reranking).

Wydajność modeli językowych i kanały PCIe: kluczowe zagadnienia

Jak liczba linii PCIe wpływa na wydajność LLM? W zależności od zadania. Dla treningu i inferencji wielo-GPU spadek wydajności jest znaczący.

Konwertuj zawartość HTML na Markdown za pomocą LLM i Ollama

W bibliotece modeli Ollama są modele, które potrafią konwertować zawartość HTML na Markdown, co jest przydatne w zadaniach związanych z konwersją treści. Ten przewodnik jest częścią naszego Narzędzia dokumentacyjne w 2026: Markdown, LaTeX, PDF i przepływ pracy druku hub.

Ollama

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Porównanie wydajności Ollama

Docker Model Runner vs Ollama (2026): Który jest lepszy do lokalnych modeli LLM?

Klienty Go dla Ollama: porównanie SDK oraz przykłady Qwen3/GPT-OSS

Porównanie: Qwen3:30b vs GPT-OSS:20b

Integracja Ollama z Pythonem: Przykłady REST API i klienta Pythona

Problemy z wyjściowym formatem strukturyzowanym w Ollama GPT-OSS

Ograniczanie LLM za pomocą strukturalnego wyjścia: Ollama, Qwen3 & Python lub Go

Przydzielanie pamięci i harmonogramowanie modeli w nowej wersji Ollama - v0.12.1

Enshittification Ollama – wczesne objawy

Interfejsy chatu dla lokalnych instancji Ollama

Reranking dokumentów przy użyciu Ollama i modelu Qwen3 Reranker – w języku Go

Porównanie jakości tłumaczenia stron w Hugo – LLMs na Ollama

Ponowne rankowanie tekstów przy użyciu Ollama i Qwen3 Embedding LLM – w Go

Modele Qwen3 Embedding i Reranker na Ollama: osiągnięcia stanowiące stan techniki

Wydajność modeli językowych i kanały PCIe: kluczowe zagadnienia

Konwertuj zawartość HTML na Markdown za pomocą LLM i Ollama