Rost Glukhov | Strona osobista i blog techniczny

Metoda PARA dla inżynierów: Organizacja wiedzy według działań

Organizowanie notatek według tematów brzmi logicznie, dopóki nie masz notatek na temat PostgreSQL w pięciu różnych folderach i nie możesz znaleźć tej, która ma znaczenie dla problemu dnia.

Evergreen Notes: Pisząc notatki, które z czasem rosną w siłę

Większość notatek inżynierskich jest pisana raz i zapominana. Zapisujesz coś podczas sesji debugowania, wklejasz to gdzieś i znajdujesz ponownie dwa lata później, nie mając pojęcia, dlaczego to kiedykolwiek miało znaczenie.

Cyfrowe ogrody: uprawiaj wiedzę, a nie tylko ją publikuj

Dominujący model publikowania wiedzy w internecie nie zmienił się zbyt wiele od wczesnych lat 2000.: napisz coś, dopracuj, opublikuj i przejdź dalej.

Routing modeli: przestań używać jednego modelu do wszystkiego

Uruchamianie modelu o 70 miliardach parametrów w celu podsumowania 200-znakowego e-maila jest marnotrawstwem. Zastosowanie modelu o 3 miliardach parametrów do recenzji kodu produkcyjnego jest bezmyślną ryzykownością. Większość systemów funkcjonuje gdzieś w tym spektrum – i tutaj z pomocą przychodzi routing modeli.

Projektowanie systemów wielomodelowych: kiedy jeden model to za mało

Systemy oparte na jednym modelu są proste. Systemy wielomodelowe są potężne. Wyzwanie nie polega na wyborze modeli – chodzi o zaprojektowanie architektury, która je koordynuje.

Optymalizacja kosztów systemów LLM: gdzie naprawdę idzie pieniądze

Koszty LLM rosną liniowo wraz z użyciem. System przetwarzający 10 000 zapytań dziennie po cenie 0,01 USD za zapytanie kosztuje 100 USD dziennie — czyli 365 USD rocznie. W skali przedsiębiorczej to ponad 10 000 USD.

LLM Guardrails w praktyce: co naprawdę działa

Modele językowe LLM są nieprzewidywalne. Halucynują, ujawniają dane, generują szkodliwe treści lub odmawiają spełnienia legalnych zapytań. Mechanizmy ochronne (guardrails) ograniczają zachowanie modelu, nie kosztem jego możliwości.

Pamięć przekształca asystentów z reaktywnych w trwałych, ale to również miejsce, w którym wiele systemów cicho się psuje. Ankiety wskazują, że podział na pamięć krótko- i długoterminową nie jest już wystarczający dla współczesnej pamięci agentów; OpenAI i SDK LangGraph wskazują na prostszą architekturę — pamięć roboczą, trwały stan i mechanizmy odzyskiwania danych.

Architektura asystenta AI: LLM, pamięć, narzędzia, routing, obserwowalność

Produkcja asystenta AI to nie „LLM z promptem”. To system, który przyjmuje intencję, utrzymuje stan, decyduje, kiedy pobierać dane lub wykonać działanie, oraz udostępnia wystarczająco szczegółowych informacji o czasie działania do debugowania awarii.

AI w zarządzaniu wiedzą: praktyczne przepływy pracy, które sprawdzą się w praktyce

AI nie zastępuje zarządzania wiedzą; zmienia jej kształt zarówno dla osób indywidualnych, jak i zespołów.

Zettelkasten dla programistów: praktyczna metoda, która działa

Programiści zwykle nie cierpią z powodu braku informacji. Problemem jest ich nadmiar.

OpenClaw kontra Hermes Agent: gwiazdki, pobrania i użycie w 2026 roku

Otwartoźródłowe frameworki agentów AI zyskują na popularności na GitHubie w tempie wybuchowym. Dwa projekty lyingce w centrum ekosystemu samodzielnie hostowanych systemów AI — OpenClaw i Hermes Agent — wyprzedziły resztę pola tak daleko, że pozostali uczestnicy rywalizują o odległe trzecie miejsce.

Qwen 3.6 27B i 35B MTP w porównaniu do standardowych modeli na GPU z 16 GB

Przetestowałem wydajność spekulacyjnego dekodowania (Wieloznakowego Przewidywania, MTP) w modelach Qwen 3.6 27B i 35B na karcie RTX 4080 z 16 GB pamięci VRAM.

Usuń wszystkie modele routera llama.cpp bez restartowania

Tryb routera w llama.cpp to jedna z najbardziej przydatnych zmian wprowadzonych do llama-server w ciągu ostatnich lat. Wreszcie daje lokalnym operatorom modeli LLM coś w rodzaju zarządzania modelami, do którego są przyzwyczajeni z Ollama, jednocześnie zachowując surową wydajność i kontrolę na niskim poziomie, która sprawia, że warto korzystać z llama.cpp w pierwszej kolejności.

Pobieranie vs. reprezentacja w systemach wiedzy

Większość współczesnych systemów wiedzy optymalizuje wyszukiwanie (retrieval), co jest zrozumiałe. Wyszukiwanie jest widoczne, łatwe do demonstracji i wydaje się magiczne, gdy działa poprawnie. Wpisujesz pytanie, otrzymujesz odpowiedź.

LLM Wiki – skompilowana wiedza, której RAG nie może zastąpić

Premisa jest prosta: skompilowana wiedza jest bardziej ponownie wykorzystywalna niż pobrane fragmenty. RAG stał się domyślną odpowiedzią na proste pytanie – jak zapewnić LLM dostęp do zewnętrznej wiedzy?

Subskrybuj