Qual è il miglior modello di embedding?

L’embedding di Qwen 3 su Ollama è probabilmente il miglior LLM per embedding attualmente disponibile.

Modelli di Embedding e Reranker Qwen3 su Ollama: prestazioni all'avanguardia

Nuovi e potenti LLM disponibili su Ollama

Indice

I modelli Qwen3 Embedding e Reranker sono le ultime uscite della famiglia Qwen, progettati specificamente per compiti avanzati di incorporazione (embedding), recupero (retrieval) e riordinamento (reranking) del testo.

Gioia per gli occhi Lunghezza del contesto e dimensioni dell’embedding per Qwen3 Embedding Reranker

I modelli Qwen3 Embedding e Reranker rappresentano un significativo avanzamento nell’elaborazione del linguaggio naturale (NLP) multilingue, offrendo prestazioni all’avanguardia nei compiti di embedding e reranking. Questi modelli, parte della serie Qwen sviluppata da Alibaba, sono progettati per supportare un’ampia gamma di applicazioni, dal recupero semantico alla ricerca nel codice. Questo tipo di capacità di embedding è fondamentale per costruire sistemi RAG efficaci, come descritto in dettaglio nel Tutorial sulla Generazione Aumentata dal Recupero (RAG): Architettura, Implementazione e Guida alla Produzione. Sebbene Ollama sia una piattaforma open-source popolare per l’hosting e il deployment di grandi modelli linguistici (LLM), l’integrazione dei modelli Qwen3 con Ollama non è esplicitamente dettagliata nella documentazione ufficiale. Tuttavia, i modelli sono accessibili tramite Hugging Face, GitHub e ModelScope, consentendo un potenziale deployment locale tramite Ollama o strumenti simili.

Esempi di utilizzo di questi modelli

Si prega di consultare il codice di esempio in Go che utilizza ollama con questi modelli:

Panoramica dei nuovi modelli Qwen3 Embedding e Reranker su Ollama

Questi modelli sono ora disponibili per il deployment su Ollama in varie dimensioni, offrendo prestazioni all’avanguardia e flessibilità per un’ampia gamma di applicazioni relative a linguaggio e codice.

Caratteristiche e capacità principali

Dimensioni del modello e flessibilità
- Disponibili in più dimensioni: 0.6B, 4B e 8B parametri per entrambi i compiti di embedding e reranking.
- Il modello embedding da 8B attualmente si posiziona al No. 1 nella classifica multilingue MTEB (al 5 giugno 2025, con un punteggio di 70.58).
- Supporta una gamma di opzioni di quantizzazione (Q4, Q5, Q8, ecc.) per bilanciare prestazioni, utilizzo della memoria e velocità. Q5_K_M è consigliato per la maggior parte degli utenti in quanto preserva la maggior parte delle prestazioni del modello pur essendo efficiente nelle risorse.
Architettura e addestramento
- Costruiti sulla base di Qwen3, sfruttando sia l’architettura dual-encoder (per gli embedding) che cross-encoder (per il reranking).
- Modello Embedding: elabora singoli segmenti di testo, estraendo rappresentazioni semantiche dallo stato nascosto finale.
- Modello Reranker: prende coppie di testo (ad esempio, query e documento) e restituisce un punteggio di rilevanza utilizzando un approccio cross-encoder.
- I modelli Embedding utilizzano un paradigma di addestramento a tre stadi: pre-addestramento contrastivo, addestramento supervisionato con dati di alta qualità e fusione di modelli per una generalizzazione e adattabilità ottimali.
- I modelli Reranker sono addestrati direttamente con dati etichettati di alta qualità per efficienza ed efficacia.
Supporto multilingue e multitask
- Supporta oltre 100 lingue, inclusi i linguaggi di programmazione, abilitando robuste capacità di recupero multilingue, cross-linguistico e del codice.
- I modelli Embedding consentono definizioni vettoriali flessibili e istruzioni definite dall’utente per adattare le prestazioni a compiti o lingue specifici.
- Per applicazioni che richiedono capacità multimodali oltre al testo, vedi Embeddings Cross-Modal: Colmare il divario tra le modalità AI.
Prestazioni e casi d’uso
- Risultati all’avanguardia nel recupero di testo, recupero di codice, classificazione, clustering e mining di bitext.
- I modelli Reranker eccellono in vari scenari di recupero di testo e possono essere combinati senza soluzione di continuità con i modelli embedding per pipeline di recupero end-to-end.

Come utilizzare su Ollama

È possibile eseguire questi modelli su Ollama con comandi come:

ollama run dengcao/Qwen3-Embedding-8B:Q5_K_M
ollama run dengcao/Qwen3-Reranker-0.6B:F16

Scegli la versione di quantizzazione che meglio si adatta alle tue esigenze di hardware e prestazioni.

Aggiornamento dicembre 2025: Ora Ollama fornisce modelli di embedding Qwen3 standard, dal proprio repository, non da quello di dengcao:

ollama pull qwen3-embedding:8b
ollama pull qwen3-embedding:4b

Vedi altro: https://ollama.com/library/qwen3-embedding

Tabella riassuntiva

Tipo di Modello	Dimensioni disponibili	Punti di forza principali	Supporto multilingue	Opzioni di quantizzazione
Embedding	0.6B, 4B, 8B	Punteggi MTEB in testa, flessibile, efficiente, SOTA	Sì (100+ lingue)	Q4, Q5, Q6, Q8, ecc.
Reranker	0.6B, 4B, 8B	Eccelle nella rilevanza delle coppie di testo, efficiente, flessibile	Sì	F16, Q4, Q5, ecc.

Notizie fantastiche!

I modelli Qwen3 Embedding e Reranker su Ollama rappresentano un salto significativo nelle capacità di recupero di testo e codice multilingue e multitask. Con opzioni di deployment flessibili, forti prestazioni nei benchmark e supporto per un’ampia gamma di lingue e compiti, sono ideali sia per ambienti di ricerca che per la produzione.

Zoo dei modelli - piacere per gli occhi ora

Qwen3 Embedding

https://ollama.com/dengcao/Qwen3-Embedding-8B

Qwen3 Embedding 8b

https://ollama.com/dengcao/Qwen3-Embedding-4B/tags

Qwen3 Embedding 4b

https://ollama.com/dengcao/Qwen3-Embedding-0.6B/tags

Qwen3 Embedding 0.6b

Qwen3 Reranker

https://ollama.com/dengcao/Qwen3-Reranker-8B

Qwen3 Reranker 8b

dengcao/Qwen3-Reranker-8B:Q3_K_M
dengcao/Qwen3-Reranker-8B:Q5_K_M

https://ollama.com/dengcao/Qwen3-Reranker-4B/tags

dengcao/Qwen3-Reranker-4B:Q5_K_M

Qwen3-Reranker-4B

https://ollama.com/dengcao/Qwen3-Reranker-0.6B/tags

Qwen3-Reranker-0.6B

Bellissimo!