Testare Deepseek-R1 su Ollama
Confronto tra due modelli deepseek-r1 e due modelli base
DeepSeek’s prima generazione di modelli di ragionamento con prestazioni paragonabili a quelle di OpenAI-o1, inclusi sei modelli densi distillati da DeepSeek-R1 basati su Llama e Qwen.
Ollama model library ha recentemente aggiunto un insieme di modelli DeepSeek basati su Llama 3.1 e 3.3 e Qwen 2.
Sopra è un’immagine generata da AI (modello dev Flux 1) dell’Llama accanto al cartello deepseek-r1 sulla strada a Londra.
In questo post sto confrontando due modelli DeepSeek-r1 con i loro corrispondenti base Llama 3.1 e Qwen2
TL;DR - Riepilogo dei risultati del test
- Il miglior risultato:
llama3.1:8b-instruct-q4_K_M
- Entrambi i modelli DeepSeek-r1
deepseek-r1:7b-qwen-distill-q4_K_M
edeepseek-r1:8b-llama-distill-q4_K_M
- non hanno ottenuto buoni risultati.
Modello | Test 1 | Test 2 | Test 3 | Test 4 | Totale |
---|---|---|---|---|---|
deepseek-r1:7b-qwen-distill-q4_K_M | 3 | 3 | 2 | 2 | 10 |
deepseek-r1:8b-llama-distill-q4_K_M | 3 | 2 | 4 | 1 | 10 |
llama3.1:8b-instruct-q4_K_M | 4 | 4 | 2 | 4 | 14 |
qwen2.5:7b-instruct-q4_K_M | 3 | 3 | 3 | 3 | 12 |
Commenti
- Nel Test 1 - tutti i modelli hanno ottenuto buoni risultati, ma llama3.1:8b-instruct-q4_K_M ha ricevuto un punto extra per aver fornito le sezioni
Similitudini
eDifferenze
. - Nel Test 2 - deepseek-r1:8b-llama-distill-q4_K_M ha prodotto una risposta troppo breve, llama3.1:8b-instruct-q4_K_M - punto extra per
Riassunto del confronto
- Nel Test 3 - non ho apprezzato l’inclinazione a sinistra in llama3.1:8b-instruct-q4_K_M, deepseek-r1:8b-llama-distill-q4_K_M ha prodotto un risultato equilibrato e ben strutturato.
- Nel Test 4 - deepseek-r1:7b-qwen-distill-q4_K_M: DEI~30%; deepseek-r1:8b-llama-distill-q4_K_M - ha perso tutto in relazione al genere, DEI e vittimizzazione. llama3.1:8b-instruct-q4_K_M - risposta ben strutturata e
puntualmente precisa
.
Installazione di Ollama
Installa il server Ollama da https://ollama.com .
Per le istruzioni dettagliate vedi Installare Ollama e configurare la posizione dei modelli
Recupera i modelli DeepSeek-r1, Llama 3.1 e Qwen 2
Sto testando qui i modelli DeepSeek 7b-qwen-distill-q4_K_M, 8b-llama-distill-q4_K_M, Modello Llama: llama3.1:8b-instruct-q4_K_M e modello Qwen 2.5: qwen2.5:7b-instruct-q4_K_M
Scaricamento dei modelli DeepSeek-r1, Llama3.1 e Qwen2.5
ollama pull deepseek-r1:7b-qwen-distill-q4_K_M
ollama pull deepseek-r1:8b-llama-distill-q4_K_M
ollama pull llama3.1:8b-instruct-q4_K_M
ollama pull qwen2.5:7b-instruct-q4_K_M
Esegui i modelli DeepSeek-r1
Esecuzione dei modelli DeepSeek-r1 e di altri LLM
ollama run deepseek-r1:7b-qwen-distill-q4_K_M
ollama run deepseek-r1:8b-llama-distill-q4_K_M
ollama run llama3.1:8b-instruct-q4_K_M
ollama run qwen2.5:7b-instruct-q4_K_M
Please see sample prompts and responses in the English version of this post. You can select the language on the right.
Conclusione
Davvero mi aspettavo di più dai modelli Depseek-r1. Mi aspettavo che si comportassero meglio rispetto ai modelli base. Ma forse questi modelli sono troppo piccoli o probabilmente l’r2 farà meglio. Aspettiamo e vediamo.
Link utili
- Ollama cheatsheet
- Come Ollama gestisce le richieste parallele
- Test: Come Ollama utilizza le prestazioni e i core efficienti del processore Intel
- Spostare i modelli Ollama su un diverso disco o cartella
- Confronto delle prestazioni di velocità degli LLM
- Confronto delle capacità di sintesi degli LLM
- Modelli Qwen3 Embedding & Reranker su Ollama: prestazioni all’avanguardia
- Riordinare documenti testuali con Ollama e modello Qwen3 Embedding - in Go
- Confronto della qualità della traduzione delle pagine Hugo - LLM su Ollama