Scegliere il giusto LLM per Cognee: Configurazione locale di Ollama

Riflessioni sui modelli LLM per Cognee autoospitati

Indice

Scegliere il miglior LLM per Cognee richiede di bilanciare la qualità della costruzione del grafo, i tassi di allucinazione e i vincoli hardware. Cognee eccelle con modelli più grandi a bassa allucinazione (32B+) tramite Ollama ma le opzioni di dimensioni medio-piccole funzionano per le configurazioni più leggere.

Per un confronto più ampio tra Ollama e vLLM, Docker Model Runner, LocalAI e fornitori di cloud — incluso il confronto dei costi e delle infrastrutture — vedi LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

lecture-in-the-library

Requisiti principali di Cognee

Cognee si basa sull’LLM per l’estrazione delle entità, l’inferenza delle relazioni e la generazione dei metadati. I modelli inferiori a 32B spesso producono grafi rumorosi, mentre un’elevata allucinazione (ad esempio, 90%+) inquina i nodi/le relazioni, degradando il recupero. Le documentazioni ufficiali consigliano deepseek-r1:32b o llama3.3-70b-instruct-q3_K_M abbinati agli embedding di Mistral.

Tabella di confronto dei modelli

Modello Parametri Allucinazione (SimpleQA/est.) VRAM (quantizzato) Forze di Cognee Debolezze
gpt-oss:20b 20B 91,4% ~16GB Inferenza veloce, chiamata degli strumenti Rumore del grafo severo
Qwen3:14b 14B ~40-45% ~12-14GB Efficiente su hardware modesto Profondità limitata per i grafi
Devstral Small 2 24B ~8-10% ~18-20GB Focus sul coding, entità pulite VRAM più elevata rispetto a Qwen3
Llama3.3-70b 70B ~30-40% ~40GB+ Qualità del grafo ottimale Necessità di risorse pesanti
Deepseek-r1:32b 32B Basso (raccomandato) ~24-32GB Migliore per il ragionamento/grafo Più lento sui GPU consumer

I dati sono sintetizzati dalle documentazioni Cognee, schede dei modelli e benchmark. I dati sull’allucinazione, anche se sembrano fuori posto, potrebbero non essere troppo distanti…

Consigli per l’hardware

  • Di alta gamma (VRAM 32GB+): Deepseek-r1:32b o Llama3.3-70b. Questi producono i grafi più puliti in base alle linee guida di Cognee.
  • Di media gamma (VRAM 16-24GB): Devstral Small 2. L’alta precisione e l’abilità nel coding si adattano bene ai compiti strutturati di memoria.
  • A basso costo (VRAM 12-16GB): Qwen3:14b invece di gpt-oss:20b — evitare i problemi di allucinazione al 91%.
  • Sto pensando di evitare gpt-oss:20b per Cognee; ci sono note che i suoi errori si amplificano nella costruzione non filtrata dei grafi. Tuttavia, la velocità di inferenza sul mio GPU è 2+ volte più veloce….

Rapido setup Ollama + Cognee

# 1. Scarica il modello (es. Devstral)
ollama pull devstral-small-2:24b  # o qwen3:14b, ecc.

# 2. Installa Cognee
pip install "cognee[ollama]"

# 3. Variabili d'ambiente
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensioni
export EMBEDDING_DIMENSIONS=768

# 4. Test del grafo
cognee-cli add your_data_file.txt --dataset-name "test_graph"

Fai corrispondere le dimensioni degli embedding (es. 768, 1024) tra la configurazione e il magazzino vettoriale. Qwen3 Embeddings (non provati in Cognee) potrebbero funzionare a 1024-4096 dimensioni se supportati da Ollama.

Priorità ai modelli a bassa allucinazione per le pipeline di produzione Cognee — i tuoi grafi te lo ringrazieranno. Testa sull’hardware tuo e monitora la coerenza del grafo. Per vedere come Ollama si adatta ad altre opzioni locali e cloud di LLM, consulta la nostra LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

Modelli di embedding

Non ci ho pensato molto, ma ecco una tabella che ho preparato, per riferimento futuro

Modello Ollama Dimensioni, GB Dimensioni degli embedding Lunghezza del contesto
nomic-embed-text:latest 0,274 768 2k
jina-embeddings-v2-base-en:latest 0,274 768 8k
nomic-embed-text-v2-moe 0,958 768 512
qwen3-embedding:0.6b 0,639 1024 32K
qwen3-embedding:4b 2,5 2560 32K
qwen3-embedding:8b 4,7 4096 32K
avr/sfr-embedding-mistral:latest 4,4 4096 32K