AI - Page 3 - Rost Glukhov | Strona osobista i blog techniczny

Instalacja i konfiguracja Claude Code dla Ollama, llama.cpp, ceny

Claude Code to nie autouzupełnianie z lepszym marketingiem. To narzędzie kodowania agentowe: czyta Twoją bazę kodu, edytuje pliki, uruchamia polecenia i integruje się z Twoimi narzędziami developerskimi.

Asystent Hermes AI – instalacja, konfiguracja, przepływ pracy i rozwiązywanie problemów

Hermes Agent to samodzielnie hostowany, niezależny od modelu asystent AI, który działa na lokalnym komputerze lub tanim serwerze VPS, współpracuje przez interfejs terminala i komunikatora oraz rozwija się z czasem, zamieniając powtarzalne zadania w wielokrotnego użytku umiejętności.

TGI – Text Generation Inference – instalacja, konfiguracja, rozwiązywanie problemów

Text Generation Inference (TGI) ma bardzo specyficzną energię. Nie jest najmłodszym dzieckiem na ulicy inferencji, ale jest tym, które już nauczyło się, jak produkcja się psuje –

16 GB VRAM LLM benchmarks with llama.cpp (speed and context)

Porównuję tutaj szybkość działania kilku modeli LLM uruchamianych na GPU z 16 GB pamięci VRAM i wybieram najlepszy z nich do samodzielnego hostowania (self-hosting).

Ollama w Docker Compose z obsługą GPU i trwałą pamięcią modeli

Ollama świetnie działa na “gołym metalu”. Zyskuje jednak na ciekawości, gdy potraktujesz ją jako usługę: stabilny punkt końcowy, zablokowane wersje, trwałe przechowywanie danych oraz dostępność GPU, która jest albo dostępna, albo nie.

Ollama za certyfikatem odwróconym (reverse proxy) z Caddy lub Nginx do strumieniowego dostępu HTTPS

Uruchomienie Ollama za pośrednictwem proxy odwrotnego to najprostszy sposób na uzyskanie HTTPS, opcjonalnej kontroli dostępu oraz przewidywalnego zachowania strumieniowego.

Szybki start z SGLang: instalacja, konfiguracja i uruchamianie modeli LLM przez API OpenAI

SGLang to wysokowydajny framework do obsługi dużych modeli językowych i multimodalnych, zaprojektowany do zapewnienia niskiego opóźnienia i wysokiej przepustowości podczas wnioskowania, niezależnie od tego, czy działa na pojedynczej karcie GPU, czy w rozproszonych klastrach.

Szybki start przełącznika modeli llama.swap dla lokalnych LLM kompatybilnych z OpenAI

Wkrótce będziesz balansować między vLLM, llama.cpp i innymi rozwiązaniami – każdy stos na własnym porcie. Wszystko w dalszym ciągu oczekuje jednego podstawowego adresu URL /v1; inaczej ciągle będziesz przesuwać porty, profile i skrypty ad-hoc. llama-swap jest proxy /v1 przed tymi stosami.

Systemy AI: samodzielnie hostowani asystenci, RAG i lokalna infrastruktura

Większość lokalnych konfiguracji AI zaczyna się od modelu i środowiska wykonawczego.

Recenzja Oh My Opencode: szczere wyniki, ryzyka rozliczeniowe i kiedy się to opłaca

Oh My Opencode obiecuje „wirtualny zespół deweloperski AI" — Sisyphus koordynuje specjalistów, zadania są wykonywane równolegle, a magiczne słowo kluczowe ultrawork uruchamia całą tę machinę.

Szybki start z OpenCode: instalacja, konfiguracja i uruchomienie

Oh My Opcode przekształca OpenCode w harnes do kodowania wieloagentowego: orchestrator deleguje zadania do specjalistycznych agentów działających równolegle.

Najlepsze modele LLM do OpenCode – od Gemmy 4 po Qwena 3.6, przetestowane lokalnie

Przetestowałem, jak OpenCode współpracuje z kilkoma lokalnie hostowanymi modelami LLM na Ollama i llama.cpp, a dla porównania dodałem kilka darmowych modeli z OpenCode Zen.

Specjalne Agenty Opencode: Dogłębna Analiza i Przewodnik po Modelach

Największy skok możliwości w OpenCode wynika z specjalistycznych agentów: celowego rozdzielenia orkiestracji, planowania, wykonania i badań.

Szybki start asystenta OpenHands do kodowania: instalacja, flagi CLI, przykłady

OpenHands to platform open-source, agnostyczna wobec modeli, służąca dla agentów oprogramowania napędzanych przez AI. Pozwala ona agentowi zachowywać się bardziej jak partner programistyczny, a nie jak proste narzędzie do autouzupełniania.

LocalAI QuickStart: Uruchamianie lokalnie modeli LLM zgodnych z OpenAI

LocalAI to serwer inferencji typu self-hosted i first-local zaprojektowany tak, aby zachowywał się jak kompatybilny zamiennik API OpenAI do uruchamiania obciążeń AI na Twoim własnym sprzęcie (laptop, stacja robocza lub serwer lokalny).

Nieustannie wracam do llama.cpp do wnioskowania lokalnego – daje ono kontrolę, której Ollama i inne rozwiązania abstrahują, a po prostu działa. Łatwo uruchamiać modele GGUF interaktywnie za pomocą llama-cli lub narażać API HTTP zgodne z OpenAI za pomocą llama-server.