Hardware

Jak Ollama Obsługuje Wątki Paralelne

Jak Ollama Obsługuje Wątki Paralelne

Konfigurowanie ollama do wykonywania równoległych żądań.

Gdy serwer Ollama otrzymuje dwa żądania w tym samym czasie, jego zachowanie zależy od konfiguracji i dostępnych zasobów systemowych.

Test prędkości modeli językowych dużych

Test prędkości modeli językowych dużych

Sprawdźmy prędkość LLM na GPU vs CPU

Porównanie prędkości przewidywania kilku wersji modeli językowych (LLM): llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) na procesorze (CPU) i karcie graficznej (GPU).