Wat is het beste inbeddingsmodel?

De Qwen 3-embedding op Ollama is waarschijnlijk momenteel de beste embedding LLM.

Qwen3 Embedding- en Reranker-modellen op Ollama: State-of-the-Art-prestaties

Nieuwe, geweldige LLM's beschikbaar in Ollama

Inhoud

De Qwen3 Embedding en Reranker-modellen zijn de nieuwste releases in de Qwen-familie, specifiek ontworpen voor geavanceerde tekst-inbedding (embedding), ophalen (retrieval) en her-ranking taken.

Genot voor het oog Qwen3 Embedding Reranker Context length and embedding dimensions

De Qwen3 Embedding en Reranker-modellen vertegenwoordigen een significante vooruitgang in meertalige natuurlijke taalverwerking (NLP) en bieden state-of-the-art prestaties bij taken rond tekst-inbedding en her-ranking. Deze modellen, onderdeel van de Qwen-serie ontwikkeld door Alibaba, zijn ontworpen om een breed scala aan toepassingen te ondersteunen, van semantisch ophalen tot codesoek. Dit soort inbeddingsmogelijkheden is fundamenteel voor het bouwen van effectieve RAG-systemen, zoals uitgebreid behandeld in de Retrieval-Augmented Generation (RAG) Tutorial: Architecture, Implementation, and Production Guide. Hoewel Ollama een populaire open-source platform is voor het hosten en implementeren van grote taalmodellen (LLM’s), is de integratie van Qwen3-modellen met Ollama niet expliciet gedetailleerd in de officiële documentatie. De modellen zijn echter toegankelijk via Hugging Face, GitHub en ModelScope, wat lokale implementatie via Ollama of vergelijkbare tools mogelijk maakt.

Voorbeelden met deze modellen

Zie onderstaande voorbeeldcode in Go met Ollama en deze modellen:

Overzicht van de nieuwe Qwen3 Embedding en Reranker-modellen op Ollama

Deze modellen zijn nu beschikbaar voor implementatie op Ollama in verschillende groottes, met state-of-the-art prestaties en flexibiliteit voor een breed scala aan taal- en code-gerelateerde toepassingen.

Belangrijkste kenmerken en mogelijkheden

Modelgroottes en flexibiliteit
- Beschikbaar in meerdere groottes: 0,6B, 4B en 8B parameters voor zowel embedding- als reranking-taken.
- Het 8B embedding-model staat momenteel op nummer 1 op de MTEB-meertalige leaderboard (per 5 juni 2025, met een score van 70,58).
- Ondersteunt een reeks kwantisatie-opties (Q4, Q5, Q8, enz.) om een balans te vinden tussen prestaties, geheugengebruik en snelheid. Q5_K_M wordt aanbevolen voor de meeste gebruikers, aangezien het de meeste modelprestaties behoudt terwijl het efficiënt is qua resources.
Architectuur en training
- Gebouwd op de Qwen3-fundering, waarbij gebruik wordt gemaakt van zowel dual-encoder (voor embeddings) als cross-encoder (voor reranking) architecturen.
- Embedding-model: Verwerkt enkele tekstsegmenten en extracteert semantische representaties uit de laatste verborgen staat (hidden state).
- Reranker-model: Neemt tekstparen (bijv. query en document) en geeft een relevantiescore uit via een cross-encoder-aanpak.
- Embedding-modellen maken gebruik van een trainingsparadigma in drie fasen: contrastief pre-training, toezichthoudend training met hoogwaardige data en model-fusion voor optimale generalisatie en aanpassingsvermogen.
- Reranker-modellen worden direct getraind met hoogwaardige gelabelde data voor efficiëntie en effectiviteit.
Meertalige en multitask-ondersteuning
- Ondersteunt meer dan 100 talen, inclusief programmeertalen, wat robuuste meertalige, cross-linguale en code-ophalmogelijkheden mogelijk maakt.
- Embedding-modellen stellen flexibele vectordefinities en door de gebruiker gedefinieerde instructies mogelijk om prestaties af te stemmen op specifieke taken of talen.
- Voor toepassingen die multimodale mogelijkheden nodig hebben die verder gaan dan tekst, zie Cross-Modal Embeddings: Bridging AI Modalities.
Prestaties en gebruiksscenario’s
- State-of-the-art resultaten in tekstophalen, codeophalen, classificatie, clusteranalyse en bitext-mining.
- Reranker-modellen excelleren in verschillende tekstophaalscenario’s en kunnen naadloos worden gecombineerd met embedding-modellen voor end-to-end ophaalpijplijnen.

Hoe te gebruiken op Ollama

U kunt deze modellen op Ollama uitvoeren met commando’s zoals:

ollama run dengcao/Qwen3-Embedding-8B:Q5_K_M
ollama run dengcao/Qwen3-Reranker-0.6B:F16

Kies de kwantisatieversie die het beste past bij uw hardware en prestatiebehoeften.

Update december 2025: Ollama biedt nu standaard Qwen3-embeddingmodellen, afkomstig uit hun eigen repo, niet die van dengcao:

ollama pull qwen3-embedding:8b
ollama pull qwen3-embedding:4b

Zie meer: https://ollama.com/library/qwen3-embedding

Samenvattende tabel

Modeltype	Beschikbare groottes	Belangrijkste sterktes	Meertalige ondersteuning	Kwantisatie-opties
Embedding	0,6B, 4B, 8B	Top MTEB-scores, flexibel, efficiënt, SOTA	Ja (100+ talen)	Q4, Q5, Q6, Q8, enz.
Reranker	0,6B, 4B, 8B	Excelleren in relevantie van tekstparen, efficiënt, flexibel	Ja	F16, Q4, Q5, enz.

Fantastisch nieuws!

De Qwen3 Embedding en Reranker-modellen op Ollama vertegenwoordigen een significante sprong vooruit in meertalige, multitask-tekst- en code-ophaalcapaciteiten. Met flexibele implementatieopties, sterke benchmarkprestaties en ondersteuning voor een breed scala aan talen en taken, zijn ze geschikt voor zowel onderzoeks- als productieomgevingen.

Model zoo - nu genot voor het oog

Qwen3 Embedding

https://ollama.com/dengcao/Qwen3-Embedding-8B

Qwen3 Embedding 8b

https://ollama.com/dengcao/Qwen3-Embedding-4B/tags

Qwen3 Embedding 4b

https://ollama.com/dengcao/Qwen3-Embedding-0.6B/tags

Qwen3 Embedding 0.6b

Qwen3 Reranker

https://ollama.com/dengcao/Qwen3-Reranker-8B

Qwen3 Reranker 8b

dengcao/Qwen3-Reranker-8B:Q3_K_M
dengcao/Qwen3-Reranker-8B:Q5_K_M

https://ollama.com/dengcao/Qwen3-Reranker-4B/tags

dengcao/Qwen3-Reranker-4B:Q5_K_M

Qwen3-Reranker-4B

https://ollama.com/dengcao/Qwen3-Reranker-0.6B/tags

Qwen3-Reranker-0.6B

Leuk!