Rost Glukhov | Strona osobista i blog techniczny

TGI – Text Generation Inference – instalacja, konfiguracja, rozwiązywanie problemów

Text Generation Inference (TGI) ma bardzo specyficzną energię. Nie jest najmłodszym dzieckiem na ulicy inferencji, ale jest tym, które już nauczyło się, jak produkcja się psuje –

16 GB VRAM LLM benchmarks with llama.cpp (speed and context)

Porównuję tutaj szybkość działania kilku modeli LLM uruchamianych na GPU z 16 GB pamięci VRAM i wybieram najlepszy z nich do samodzielnego hostowania (self-hosting).

Ceny, dostępność i rzeczywistość dla karty RTX 5090 w Australii w marcu 2026 roku

Australia ma na stanie karty RTX 5090. Ledwie. A jeśli którąś znajdziesz, zapłacisz cenę, która wydaje się oderwana od rzeczywistości.

Zdalny dostęp do Ollama przez Tailscale lub WireGuard bez otwierania portów publicznych.

Ollama czuje się najlepiej, gdy jest traktowane jak lokalny demon: CLI i Twoje aplikacje komunikują się z API HTTP na pętli lokalnej (loopback), a reszta sieci nigdy nie dowiaduje się o jego istnieniu.

Strukturalne logowanie w Go przy użyciu slog w celu zapewnienia obserwowalności i powiadomień.

Dzienniki (logi) to interfejs debugowania, który możesz nadal używać, gdy system jest w ogniu. Problem polega na tym, że zwykłe dzienniki tekstowe szybko się starzeją: gdy tylko potrzebujesz filtrowania, agregacji i powiadamiania, zaczynasz parsować zdania.

Ollama w Docker Compose z obsługą GPU i trwałą pamięcią modeli

Ollama świetnie działa na “gołym metalu”. Zyskuje jednak na ciekawości, gdy potraktujesz ją jako usługę: stabilny punkt końcowy, zablokowane wersje, trwałe przechowywanie danych oraz dostępność GPU, która jest albo dostępna, albo nie.

Ollama za certyfikatem odwróconym (reverse proxy) z Caddy lub Nginx do strumieniowego dostępu HTTPS

Uruchomienie Ollama za pośrednictwem proxy odwrotnego to najprostszy sposób na uzyskanie HTTPS, opcjonalnej kontroli dostępu oraz przewidywalnego zachowania strumieniowego.

Wektory tekstowe dla RAG i wyszukiwania – Python, Ollama, API kompatybilne z OpenAI

Jeśli pracujesz nad generacją wspieraną odzyskiwaniem (RAG), ta sekcja wyjaśnia wektory tekstowe (embeddings) prostym językiem — czym są, jak pasują do wyszukiwania i odzyskiwania informacji, oraz jak wywołać dwa popularne lokalne rozwiązania z Pythonu przy użyciu Ollama lub kompatybilnego z OpenAI interfejsu HTTP (jakiego używają serwery oparte na llama.cpp).

Netlify dla Hugo i stron statycznych: cennik, darmowy plan oraz alternatywy

Netlify to jedno z najbardziej przyjaznych dla deweloperów rozwiązań do wdrażania stron Hugo i nowoczesnych aplikacji webowych z wykorzystaniem profesjonalnego workflow: podglądowe URL-e dla każdej pull requestu, atomowe wdrożenia, globalna sieć CDN oraz opcjonalne możliwości serverless i edge.

Apache Flink na K8s i Kafka: PyFlink, Go, operacje oraz cennik zarządzany.

Apache Flink to framework do obliczeń z pamięcią stanu (stateful computations) nad nieograniczonymi i ograniczonymi strumieniami danych.

Baza danych grafowa Neo4j dla GraphRAG, instalacja, Cypher, wektory, operacje.

Neo4j to narzędzie, do którego sięgamy, gdy relacje są danymi. Jeśli domena Twojego projektu wygląda jak tablica kreskowa z kółkami i strzałkami, wymuszanie jej na tabele jest bolesne.

Wyjaśnienie IndexNow – powiadamianie silników wyszukiwania o publikacji treści

Strony statyczne i blogi zmieniają się przy każdym wdrożeniu. Silniki wyszukiwania obsługujące IndexNow mogą dowiedzieć się o tych zmianach bez czekania na kolejną ślepą indeksację.

Porównanie hostingu poczty dla domen własnych: Workspace, Microsoft 365, Zoho, Proton, WorkMail

Ustawianie pocztę na własnej domenie brzmi jak zadanie DNS do zrobienia w weekend. W praktyce jest to jednak mały system rozproszony z dwudziestoletnią historią.

Szybki start z SGLang: instalacja, konfiguracja i uruchamianie modeli LLM przez API OpenAI

SGLang to wysokowydajny framework do obsługi dużych modeli językowych i multimodalnych, zaprojektowany do zapewnienia niskiego opóźnienia i wysokiej przepustowości podczas wnioskowania, niezależnie od tego, czy działa na pojedynczej karcie GPU, czy w rozproszonych klastrach.

Szybki start z Apache Kafka – instalacja Kafki 4.2 z CLI i lokalnymi przykładami

Apache Kafka 4.2.0 to obecnie wspierana linia wydań i stanowi najlepszą bazę do nowoczesnego szybkiego startu, ponieważ Kafka 4.x jest w pełni pozbawiona ZooKeepera i domyślnie opiera się na KRaft.

Szybki start przełącznika modeli llama.swap dla lokalnych LLM kompatybilnych z OpenAI

Wkrótce będziesz balansować między vLLM, llama.cpp i innymi rozwiązaniami – każdy stos na własnym porcie. Wszystko w dalszym ciągu oczekuje jednego podstawowego adresu URL /v1; inaczej ciągle będziesz przesuwać porty, profile i skrypty ad-hoc. llama-swap jest proxy /v1 przed tymi stosami.

Subskrybuj