Chunking to najbardziej niedoceniany hiperparametr w Retrieval ‑ Augmented Generation (RAG):
czynnie określa, co LLM “widzi”,
jak drogie staje się przetwarzanie,
i ile miejsca w oknie kontekstu LLM zużywa się na odpowiedź.
Kontroluj dane i modele za pomocą samodzielnie hostowanych LLMów
Autonomiczne hostowanie modeli językowych (LLM) umożliwia kontrolę nad danymi, modelami i wnioskowaniem – praktyczna droga do autonomii w zakresie AI dla zespołów, przedsiębiorstw i narodów.
Uruchamianie dużych modeli językowych lokalnie zapewnia prywatność, możliwość pracy offline oraz zero kosztów API.
Ten benchmark pokazuje dokładnie, co można się spodziewać od 14 popularnych LLM na Ollama na RTX 4080.
Prawdziwe ceny w AUD od australijskich sprzedawców już teraz.
NVIDIA DGX Spark](https://www.glukhov.org/pl/hardware/ai/nvidia-dgx-spark/ “NVIDIA DGX Spark - mały superkomputer AI”)
(GB10 Grace Blackwell) jest
dostępny w Australii
w głównych sklepach z komputerami, z miejscowym zapasem.
Jeśli śledzicie
ceny i dostępność DGX Spark na świecie,
zainteresuje Was zapewne, że ceny w Australii wahają się od 6 249 do 7 999 AUD w zależności od konfiguracji pamięci masowej i sprzedawcy.
Po automatycznym zainstalowaniu nowego jądra, Ubuntu 24.04 straciła połączenie sieciowe ethernet. To irytujące pytanie wystąpiło u mnie drugi raz, dlatego dokumentuję rozwiązanie, aby pomóc innym, którzy napotkali ten sam problem.
Wdrażanie przedsiębiorstwowej sztucznej inteligencji na budżetowym sprzęcie przy użyciu modeli open-source.
Demokratyzacja sztucznej inteligencji jest tuż przed nami.
Dzięki otwartym modelom LLM takim jak Llama, Mistral i Qwen, które dorównują już modelom własnościowym, zespoły mogą budować potężną infrastrukturę AI na sprzęcie konsumenckim – drastycznie obniżając koszty, jednocześnie zachowując pełną kontrolę nad prywatnością danych i wdrożeniem.
Wyniki testów GPT-OSS 120b na trzech platformach AI
Znalazłem pewne ciekawe testy wydajności GPT-OSS 120b działającego na Ollama na trzech różnych platformach: NVIDIA DGX Spark, Mac Studio, i RTX 4080. Model GPT-OSS 120b z biblioteki Ollama waży 65 GB, co oznacza, że nie mieści się w 16 GB VRAM na RTX 4080 (ani w nowszej RTX 5080).
Szybki przewodnik po poleceniach Docker Model Runnera
Docker Model Runner (DMR) to oficjalne rozwiązanie firmy Docker do uruchamiania modeli AI lokalnie, wprowadzone w kwietniu 2025. Ten cheatsheet zawiera szybki przewodnik po wszystkich istotnych poleceniach, konfiguracjach i najlepszych praktykach.