Scegliere il giusto LLM per Cognee: Configurazione locale di Ollama
Riflessioni sui modelli LLM per Cognee autoospitati
Scegliere il miglior LLM per Cognee richiede di bilanciare la qualità della costruzione del grafo, i tassi di allucinazione e i vincoli hardware. Cognee eccelle con modelli più grandi a bassa allucinazione (32B+) tramite Ollama ma le opzioni di dimensioni medio-piccole funzionano per le configurazioni più leggere.
Per un confronto più ampio tra Ollama e vLLM, Docker Model Runner, LocalAI e fornitori di cloud — incluso il confronto dei costi e delle infrastrutture — vedi LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

Requisiti principali di Cognee
Cognee si basa sull’LLM per l’estrazione delle entità, l’inferenza delle relazioni e la generazione dei metadati. I modelli inferiori a 32B spesso producono grafi rumorosi, mentre un’elevata allucinazione (ad esempio, 90%+) inquina i nodi/le relazioni, degradando il recupero. Le documentazioni ufficiali consigliano deepseek-r1:32b o llama3.3-70b-instruct-q3_K_M abbinati agli embedding di Mistral.
Tabella di confronto dei modelli
| Modello | Parametri | Allucinazione (SimpleQA/est.) | VRAM (quantizzato) | Forze di Cognee | Debolezze |
|---|---|---|---|---|---|
| gpt-oss:20b | 20B | 91,4% | ~16GB | Inferenza veloce, chiamata degli strumenti | Rumore del grafo severo |
| Qwen3:14b | 14B | ~40-45% | ~12-14GB | Efficiente su hardware modesto | Profondità limitata per i grafi |
| Devstral Small 2 | 24B | ~8-10% | ~18-20GB | Focus sul coding, entità pulite | VRAM più elevata rispetto a Qwen3 |
| Llama3.3-70b | 70B | ~30-40% | ~40GB+ | Qualità del grafo ottimale | Necessità di risorse pesanti |
| Deepseek-r1:32b | 32B | Basso (raccomandato) | ~24-32GB | Migliore per il ragionamento/grafo | Più lento sui GPU consumer |
I dati sono sintetizzati dalle documentazioni Cognee, schede dei modelli e benchmark. I dati sull’allucinazione, anche se sembrano fuori posto, potrebbero non essere troppo distanti…
Consigli per l’hardware
- Di alta gamma (VRAM 32GB+): Deepseek-r1:32b o Llama3.3-70b. Questi producono i grafi più puliti in base alle linee guida di Cognee.
- Di media gamma (VRAM 16-24GB): Devstral Small 2. L’alta precisione e l’abilità nel coding si adattano bene ai compiti strutturati di memoria.
- A basso costo (VRAM 12-16GB): Qwen3:14b invece di gpt-oss:20b — evitare i problemi di allucinazione al 91%.
- Sto pensando di evitare gpt-oss:20b per Cognee; ci sono note che i suoi errori si amplificano nella costruzione non filtrata dei grafi. Tuttavia, la velocità di inferenza sul mio GPU è 2+ volte più veloce….
Rapido setup Ollama + Cognee
# 1. Scarica il modello (es. Devstral)
ollama pull devstral-small-2:24b # o qwen3:14b, ecc.
# 2. Installa Cognee
pip install "cognee[ollama]"
# 3. Variabili d'ambiente
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text" # 768 dimensioni
export EMBEDDING_DIMENSIONS=768
# 4. Test del grafo
cognee-cli add your_data_file.txt --dataset-name "test_graph"
Fai corrispondere le dimensioni degli embedding (es. 768, 1024) tra la configurazione e il magazzino vettoriale. Qwen3 Embeddings (non provati in Cognee) potrebbero funzionare a 1024-4096 dimensioni se supportati da Ollama.
Priorità ai modelli a bassa allucinazione per le pipeline di produzione Cognee — i tuoi grafi te lo ringrazieranno. Testa sull’hardware tuo e monitora la coerenza del grafo. Per vedere come Ollama si adatta ad altre opzioni locali e cloud di LLM, consulta la nostra LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.
Modelli di embedding
Non ci ho pensato molto, ma ecco una tabella che ho preparato, per riferimento futuro
| Modello Ollama | Dimensioni, GB | Dimensioni degli embedding | Lunghezza del contesto |
|---|---|---|---|
| nomic-embed-text:latest | 0,274 | 768 | 2k |
| jina-embeddings-v2-base-en:latest | 0,274 | 768 | 8k |
| nomic-embed-text-v2-moe | 0,958 | 768 | 512 |
| qwen3-embedding:0.6b | 0,639 | 1024 | 32K |
| qwen3-embedding:4b | 2,5 | 2560 | 32K |
| qwen3-embedding:8b | 4,7 | 4096 | 32K |
| avr/sfr-embedding-mistral:latest | 4,4 | 4096 | 32K |
Link utili
- https://docs.cognee.ai/how_to_guides/local_models
- https://docs.cognee.ai/setup-configuration/embedding-providers
- https://arxiv.org/html/2508.10925v1
- https://github.com/vectara/hallucination-leaderboard
- https://ollama.com/library/nomic-embed-text-v2-moe
- Qwen3 Embedding
- Configura la cartella dei modelli Ollama
- Ollama cheatsheet