Ollama Cheatsheet - najbardziej przydatne polecenia - aktualizacja 2026
Skompilowałem tę listę poleceń Ollama kilka czasem temu...
Oto lista i przykłady najbardziej przydatnych poleceń Ollama (Ollama commands cheatsheet) Złożyłem ją kilka czasów temu, ostatnio zaktualizowana w styczniu 2026. Mam nadzieję, że będzie również użyteczna dla Ciebie.

Ten Ollama cheatsheet koncentruje się na poleceniach CLI, zarządzaniu modelami i dostosowaniu, Ale mamy tu również niektóre curl wywołania.
Jeśli porównujesz różne lokalne rozwiązania do hostowania LLM, sprawdź naszą szczegółową analizę Ollama, vLLM, LocalAI, Jan, LM Studio i innych. Dla tych, którzy szukają alternatyw dla interfejsów wiersza poleceń, Docker Model Runner oferuje inny sposób wdrażania LLM.
Instalacja
- Opcja 1: Pobierz z witryny
- Odwiedź ollama.com i pobierz instalator dla swojego systemu operacyjnego (Mac, Linux lub Windows).
- Opcja 2: Zainstaluj przez wiersz poleceń
- Dla użytkowników Mac i Linux, użyj polecenia:
curl https://ollama.ai/install.sh | sh
- Postępuj zgodnie z instrukcjami na ekranie i wpisz hasło, jeśli zostanie poproszony.
Wymagania systemowe
- System operacyjny: Mac lub Linux (wersja Windows w trakcie rozwoju)
- Pamięć (RAM): Minimum 8 GB, zalecane 16 GB lub więcej
- Przechowywanie: Co najmniej ~10 GB wolnego miejsca (pliki modeli mogą być naprawdę duże, zobacz tutaj więcej Przeniesienie modeli Ollama na inny dysk )
- Procesor: Relatywnie nowy procesor (z ostatnich 5 lat). Jeśli chcesz dowiedzieć się, jak Ollama wykorzystuje różne architektury procesorów, zobacz naszą analizę jak Ollama wykorzystuje wydajność i efektywne jądra procesora Intel.
Dla poważnych obciążeń AI możesz chcieć porównać opcje sprzętu. Przetestowaliśmy porównanie wydajności NVIDIA DGX Spark vs Mac Studio vs RTX-4080 z Ollama, a jeśli rozważasz inwestowanie w wysokiej klasy sprzęty, nasze porównanie cen i możliwości DGX Spark oferuje szczegółową analizę kosztów.
Podstawowe polecenia CLI Ollama
| Polecenie | Opis |
|---|---|
ollama serve |
Uruchamia Ollama na Twoim lokalnym systemie. |
ollama create <new_model> |
Tworzy nowy model z istniejącego do dostosowania lub szkolenia. |
ollama show <model> |
Wyświetla szczegóły dotyczące konkretnego modelu, takie jak jego konfiguracja i data wydania. |
ollama run <model> |
Uruchamia wskazany model, gotowy do interakcji. |
ollama pull <model> |
Pobiera wskazany model na Twój system. |
ollama list |
Wyświetla wszystkie pobrane modele. To samo co ollama ls |
ollama ps |
Pokazuje obecnie działające modele. |
ollama stop <model> |
Zatrzymuje wskazany działający model. |
ollama rm <model> |
Usuwa wskazany model z Twojego systemu. |
ollama help |
Udostępnia pomoc dotyczącą dowolnego polecenia. |
Zarządzanie modelami
-
Pobierz model:
ollama pull mistral-nemo:12b-instruct-2407-q6_KTo polecenie pobiera wskazany model (np. Gemma 2B, lub mistral-nemo:12b-instruct-2407-q6_K) na Twój system. Pliki modeli mogą być bardzo duże, więc śledź zużycie miejsca przez modele na dysku twardym, lub ssd. Możesz nawet chcieć przenieść wszystkie modele Ollama z katalogu domowego na większy i lepszy dysk
-
Uruchom model:
ollama run qwen2.5:32b-instruct-q3_K_STo polecenie uruchamia wskazany model i otwiera interaktywny REPL do interakcji. Chcesz zrozumieć, jak Ollama zarządza wieloma równoległymi żądaniami? Dowiedz się więcej na temat jak Ollama obsługuje żądania równoległe w naszej szczegółowej analizie.
-
Lista modeli:
ollama listTo samo co:
ollama lsTo polecenie wyświetla wszystkie modele pobrane na Twój system, takie jak
$ ollama ls NAME ID SIZE MODIFIED deepseek-r1:8b 6995872bfe4c 5.2 GB 2 tygodnie temu gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 tygodnie temu LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 tygodnie temu dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 tygodnie temu dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 tygodnie temu qwen3:8b 500a1f067a9f 5.2 GB 5 tygodnie temu qwen3:14b bdbd181c33f2 9.3 GB 5 tygodnie temu qwen3:30b-a3b 0b28110b7a33 18 GB 5 tygodnie temu devstral:24b c4b2fa0c33d7 14 GB 5 tygodnie temu -
Zatrzymaj model:
ollama stop llama3.1:8b-instruct-q8_0To polecenie zatrzymuje wskazany działający model.
Zwolnienie modelu z VRAM
Gdy model jest ładowany do VRAM (pamięci GPU), pozostaje tam nawet po zakończeniu jego użycia. Aby jawnie zwolnić model z VRAM i zwolnić pamięć GPU, możesz wysłać żądanie do API Ollama z keep_alive: 0.
- Zwolnij model z VRAM za pomocą curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Zastąp MODELNAME rzeczywistym nazwą modelu, na przykład:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Zwolnij model z VRAM za pomocą Pythona:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
To szczególnie przydatne jest, gdy:
- Musisz zwolnić pamięć GPU dla innych aplikacji
- Uruchamiasz wiele modeli i chcesz zarządzać użyciem VRAM
- Zakończyłeś użycie dużego modelu i chcesz natychmiast zwolnić zasoby
Uwaga: Parametr keep_alive kontroluje, jak długo (w sekundach) model pozostaje załadowany do pamięci po ostatnim żądaniu. Ustawienie go na 0 natychmiastowo wywalca model z VRAM.
Dostosowywanie modeli
-
Ustawienie systemowego promptu: Wewnątrz REPL Ollama możesz ustawić systemowy prompt, aby dostosować zachowanie modelu:
>>> /set system Dla wszystkich pytań zadawanych odpowiadaj po prostu po angielsku, unikając jak najbardziej technicznego żargonu >>> /save ipe >>> /byeNastępnie uruchom dostosowany model:
ollama run ipeTo ustawia systemowy prompt i zapisuje model do późniejszego użycia.
-
Utwórz plik modelu niestandardowego: Utwórz plik tekstowy (np.
custom_model.txt) z poniższą strukturą:FROM llama3.1 SYSTEM [Twoje niestandardowe instrukcje tutaj]Następnie uruchom:
ollama create mymodel -f custom_model.txt ollama run mymodelTo tworzy dostosowany model na podstawie instrukcji w pliku.
Użycie Ollama z plikami
-
Podsumowanie tekstu z pliku:
ollama run llama3.2 "Podsumuj zawartość tego pliku w 50 słowach." < input.txtTo polecenie podsumowuje zawartość
input.txtza pomocą wskazanego modelu. -
Zapisywanie odpowiedzi modelu do pliku:
ollama run llama3.2 "Opowiedz mi o energii odnawialnej." > output.txtTo polecenie zapisuje odpowiedź modelu do
output.txt.
Typowe przypadki użycia
-
Generowanie tekstu:
- Podsumowanie dużego pliku tekstu:
ollama run llama3.2 "Podsumuj poniższy tekst:" < long-document.txt - Generowanie treści:
ollama run llama3.2 "Napisz krótki artykuł na temat korzyści z użycia AI w medycynie." > article.txt - Odpowiadanie na konkretne pytania:
ollama run llama3.2 "Jakie są najnowsze trendy w AI i jak wpłyną one na medycynę?"
.
- Podsumowanie dużego pliku tekstu:
-
Przetwarzanie i analiza danych:
- Klasyfikowanie tekstu na pozytywny, negatywny lub neutralny:
ollama run llama3.2 "Przeanalizuj ton tej recenzji klienta: 'Produkt jest fantastyczny, ale dostawa była wolna.'" - Kategoryzowanie tekstu na wstępnie zdefiniowane kategorie: Użyj podobnych poleceń do klasyfikowania lub kategoryzowania tekstu na podstawie wstępnie zdefiniowanych kryteriów.
- Klasyfikowanie tekstu na pozytywny, negatywny lub neutralny:
Użycie Ollama w Pythonie
- Zainstaluj bibliotekę Ollama dla Pythona:
pip install ollama - Generowanie tekstu przy użyciu Pythona:
Ten fragment kodu generuje tekst przy użyciu wskazanego modelu i promptu.
import ollama response = ollama.generate(model='gemma:2b', prompt='co to jest qubit?') print(response['response'])
Dla zaawansowanej integracji w Pythonie, eksploruj użycie Web Search API Ollama w Pythonie, który obejmuje możliwości wyszukiwania w sieci, wywoływanie narzędzi i integrację z serwerami MCP. Jeśli tworzysz aplikacje oparte na AI, nasze porównanie asystentów kodowania AI mogą pomóc Ci wybrać odpowiednie narzędzia do rozwoju.
Szukasz interfejsu opartego na sieci? Open WebUI oferuje samodzielnie hostowany interfejs z możliwością RAG i wsparciem wielu użytkowników. Dla wdrożeń produkcyjnych o wysokiej wydajności rozważ vLLM jako alternatywę.
Przydatne linki
Alternatywy i porównania
- Lokalne hostowanie LLM: kompletny przewodnik 2026 - Ollama, vLLM, LocalAI, Jan, LM Studio & inne
- Szybki start vLLM: wysokiej wydajności serwowanie LLM
- Docker Model Runner vs Ollama: Który wybrać?
- Pierwsze znaki enshittification Ollama
Wydajność i sprzęt
- Jak Ollama obsługuje żądania równoległe
- Jak Ollama wykorzystuje wydajność i efektywne jądra procesora Intel
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: porównanie wydajności Ollama
- DGX Spark vs. Mac Studio: praktyczne, sprawdzone ceny NVIDIA’s Personal AI Supercomputer
Integracja i rozwój
- Użycie Web Search API Ollama w Pythonie
- Porównanie asystentów kodowania AI
- Open WebUI: samodzielnie hostowany interfejs LLM
- Otwarte interfejsy czatu dla LLM na lokalnych instancjach Ollama
- Ograniczanie LLM za pomocą strukturalnego wyjścia: Ollama, Qwen3 & Python lub Go
- Integracja Ollama z Pythonem: przykłady API REST i klienta Pythona
- SDK Go dla Ollama - porównanie z przykładami