Quali caratteristiche rendono un LLM adatto a Cognee?

Cognee richiede LLM con tassi di allucinazione bassi (ideally sotto il 40%) e un numero sufficiente di parametri (consigliati 32B+) per una corretta estrazione delle entità, inferenza delle relazioni e generazione dei metadati. I modelli con tassi di allucinazione elevati (90%+) producono grafi rumorosi che riducono la qualità del recupero.

Quale LLM devo scegliere per la mia configurazione hardware?

Per le configurazioni ad alto livello (32 GB+ VRAM), utilizzare Deepseek-r1:32b o Llama3.3-70b. Per le configurazioni di media gamma (16-24 GB VRAM), Devstral Small 2 offre un basso tasso di illusioni e un focus sul coding. Per le configurazioni a basso costo (12-16 GB VRAM), Qwen3:14b è preferibile rispetto a gpt-oss:20b a causa dei tassi di illusioni molto inferiori.

Perché evitare gpt-oss:20b per Cognee?

Nonostante le elevate velocità di inferenza, gpt-oss:20b presenta un tasso di hallucinazione del 91,4% che inquina in modo grave i nodi e gli archi del grafo, rendendolo inadatto a pipeline di produzione Cognee in cui la qualità del grafo è fondamentale.

Quali modelli di embedding funzionano con Cognee su Ollama?

Le opzioni popolari includono nomic-embed-text (768 dimensioni, contesto 2k), jina-embeddings-v2-base-en (768 dimensioni, contesto 8k) e i modelli qwen3-embedding (1024-4096 dimensioni, contesto 32K). Assicurarsi che le dimensioni degli embedding corrispondano alla configurazione del proprio store vettoriale.

Dove si colloca Ollama per Cognee nel panorama dell’hosting degli LLM?

Ollama è un’opzione locale. La nostra guida principale sull’hosting degli LLM lo confronta con vLLM, Docker Model Runner, LocalAI e i fornitori di cloud, inclusi i compromessi tra costi e infrastruttura.

Posso eseguire Cognee con un backend diverso da Ollama?

Cognee supporta Ollama e altri fornitori. Per confrontare i back-end locali e cloud, consulta la guida su LLM Hosting.

Scegliere il giusto LLM per Cognee: Configurazione locale di Ollama

Riflessioni sui modelli LLM per Cognee autoospitati

Indice

Scegliere il miglior LLM per Cognee richiede di bilanciare la qualità della costruzione del grafo, i tassi di allucinazione e i vincoli hardware. Cognee eccelle con modelli più grandi a bassa allucinazione (32B+) tramite Ollama ma le opzioni di dimensioni medio-piccole funzionano per le configurazioni più leggere.

Per un confronto più ampio tra Ollama e vLLM, Docker Model Runner, LocalAI e fornitori di cloud — incluso il confronto dei costi e delle infrastrutture — vedi LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

lecture-in-the-library

Requisiti principali di Cognee

Cognee si basa sull’LLM per l’estrazione delle entità, l’inferenza delle relazioni e la generazione dei metadati. I modelli inferiori a 32B spesso producono grafi rumorosi, mentre un’elevata allucinazione (ad esempio, 90%+) inquina i nodi/le relazioni, degradando il recupero. Le documentazioni ufficiali consigliano deepseek-r1:32b o llama3.3-70b-instruct-q3_K_M abbinati agli embedding di Mistral.

Tabella di confronto dei modelli

Modello	Parametri	Allucinazione (SimpleQA/est.)	VRAM (quantizzato)	Forze di Cognee	Debolezze
gpt-oss:20b	20B	91,4%	~16GB	Inferenza veloce, chiamata degli strumenti	Rumore del grafo severo
Qwen3:14b	14B	~40-45%	~12-14GB	Efficiente su hardware modesto	Profondità limitata per i grafi
Devstral Small 2	24B	~8-10%	~18-20GB	Focus sul coding, entità pulite	VRAM più elevata rispetto a Qwen3
Llama3.3-70b	70B	~30-40%	~40GB+	Qualità del grafo ottimale	Necessità di risorse pesanti
Deepseek-r1:32b	32B	Basso (raccomandato)	~24-32GB	Migliore per il ragionamento/grafo	Più lento sui GPU consumer

I dati sono sintetizzati dalle documentazioni Cognee, schede dei modelli e benchmark. I dati sull’allucinazione, anche se sembrano fuori posto, potrebbero non essere troppo distanti…

Consigli per l’hardware

Di alta gamma (VRAM 32GB+): Deepseek-r1:32b o Llama3.3-70b. Questi producono i grafi più puliti in base alle linee guida di Cognee.
Di media gamma (VRAM 16-24GB): Devstral Small 2. L’alta precisione e l’abilità nel coding si adattano bene ai compiti strutturati di memoria.
A basso costo (VRAM 12-16GB): Qwen3:14b invece di gpt-oss:20b — evitare i problemi di allucinazione al 91%.
Sto pensando di evitare gpt-oss:20b per Cognee; ci sono note che i suoi errori si amplificano nella costruzione non filtrata dei grafi. Tuttavia, la velocità di inferenza sul mio GPU è 2+ volte più veloce….

Rapido setup Ollama + Cognee

# 1. Scarica il modello (es. Devstral)
ollama pull devstral-small-2:24b  # o qwen3:14b, ecc.

# 2. Installa Cognee
pip install "cognee[ollama]"

# 3. Variabili d'ambiente
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensioni
export EMBEDDING_DIMENSIONS=768

# 4. Test del grafo
cognee-cli add your_data_file.txt --dataset-name "test_graph"

Fai corrispondere le dimensioni degli embedding (es. 768, 1024) tra la configurazione e il magazzino vettoriale. Qwen3 Embeddings (non provati in Cognee) potrebbero funzionare a 1024-4096 dimensioni se supportati da Ollama.

Priorità ai modelli a bassa allucinazione per le pipeline di produzione Cognee — i tuoi grafi te lo ringrazieranno. Testa sull’hardware tuo e monitora la coerenza del grafo. Per vedere come Ollama si adatta ad altre opzioni locali e cloud di LLM, consulta la nostra LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

Modelli di embedding

Non ci ho pensato molto, ma ecco una tabella che ho preparato, per riferimento futuro

Modello Ollama	Dimensioni, GB	Dimensioni degli embedding	Lunghezza del contesto
nomic-embed-text:latest	0,274	768	2k
jina-embeddings-v2-base-en:latest	0,274	768	8k
nomic-embed-text-v2-moe	0,958	768	512
qwen3-embedding:0.6b	0,639	1024	32K
qwen3-embedding:4b	2,5	2560	32K
qwen3-embedding:8b	4,7	4096	32K
avr/sfr-embedding-mistral:latest	4,4	4096	32K

Requisiti principali di Cognee

Tabella di confronto dei modelli

Consigli per l’hardware

Rapido setup Ollama + Cognee

Modelli di embedding

Link utili