Qwen3-Embedding- und Reranker-Modelle auf Ollama: State-of-the-Art-Leistung

Neue, hervorragende LLMs sind in Ollama verfügbar.

Inhaltsverzeichnis

Die Qwen3 Embedding- und Reranker-Modelle sind die neuesten Veröffentlichungen in der Qwen-Familie und wurden speziell für fortgeschrittene Text-Einbettungs-, Abruf- und Neuklassifizierungsaufgaben entwickelt.

Eine Freude für die Augen Qwen3 Embedding Reranker Kontextlänge und Einbettungsdimensionen

Die Qwen3 Embedding- und Reranker-Modelle stellen einen bedeutenden Fortschritt in der mehrsprachigen Verarbeitung natürlicher Sprache (NLP) dar und bieten ein branchenführendes Leistungsprofil bei Text-Einbettungs- und Neuklassifizierungsaufgaben. Diese Modelle, die Teil der von Alibaba entwickelten Qwen-Serie sind, wurden für eine breite Palette von Anwendungen konzipiert, von der semantischen Suche bis hin zur Code-Suche. Diese Art von Einbettungsfähigkeit ist grundlegend für den Aufbau effektiver RAG-Systeme, wie sie im Tutorial zu Retrieval-Augmented Generation (RAG): Architektur, Implementierung und Produktionsleitfaden detailliert beschrieben wird. Während Ollama eine beliebte Open-Source-Plattform für das Hosting und die Bereitstellung großer Sprachmodelle (LLMs) ist, wird die Integration der Qwen3-Modelle mit Ollama in der offiziellen Dokumentation nicht explizit detailliert beschrieben. Die Modelle sind jedoch über Hugging Face, GitHub und ModelScope verfügbar, was eine potenzielle lokale Bereitstellung über Ollama oder ähnliche Tools ermöglicht.

Beispiele für die Verwendung dieser Modelle

Bitte sehen Sie sich den Beispielcode in Go an, der Ollama mit diesen Modellen verwendet:

Überblick über die neuen Qwen3 Embedding- und Reranker-Modelle auf Ollama

Diese Modelle stehen nun in verschiedenen Größen für die Bereitstellung auf Ollama zur Verfügung und bieten branchenführende Leistung sowie Flexibilität für eine breite Palette von sprach- und codebezogenen Anwendungen.

Hauptmerkmale und Fähigkeiten

  • Modellgrößen und Flexibilität

    • Verfügbar in mehreren Größen: 0,6 Mrd., 4 Mrd. und 8 Mrd. Parameter für sowohl Einbettungs- als auch Neuklassifizierungsaufgaben.
    • Das 8-Milliarden-Einbettungsmodell rangiert derzeit auf Platz 1 der MTEB-Mehrsprachen-Bestenliste (Stand 5. Juni 2025 mit einer Punktzahl von 70,58).
    • Unterstützt eine Reihe von Quantisierungsoptionen (Q4, Q5, Q8 usw.), um Leistung, Speicherverbrauch und Geschwindigkeit auszugleichen. Q5_K_M wird für die meisten Nutzer empfohlen, da es die meiste Modellleistung bewahrt, während es ressourcenschonend ist.
  • Architektur und Training

    • Basierend auf dem Qwen3-Fundament und nutzt sowohl Dual-Encoder- (für Einbettungen) als auch Cross-Encoder-Architekturen (für Neuklassifizierung).
    • Einbettungsmodell: Verarbeitet einzelne Textsegmente und extrahiert semantische Darstellungen aus dem finalen versteckten Zustand.
    • Reranker-Modell: Nimmt Textpaare (z. B. Abfrage und Dokument) entgegen und gibt einen Relevanzwert unter Verwendung eines Cross-Encoder-Ansatzes aus.
    • Einbettungsmodelle verwenden ein dreistufiges Trainingsparadigma: kontrastives Pre-Training, überwachtes Training mit hochwertigen Daten und Modellverschmelzung für optimale Generalisierung und Anpassungsfähigkeit.
    • Reranker-Modelle werden direkt mit hochwertigen, gelabelten Daten für maximale Effizienz und Wirksamkeit trainiert.
  • Mehrsprachige und Multitask-Unterstützung

    • Unterstützt über 100 Sprachen, einschließlich Programmiersprachen, was robuste mehrsprachige, übergreifende und codebezogene Abruffähigkeiten ermöglicht.
    • Einbettungsmodelle erlauben flexible Vektordefinitionen und benutzerdefinierte Anweisungen, um die Leistung an spezifische Aufgaben oder Sprachen anzupassen.
    • Für Anwendungen, die über Text hinausgehende multimodale Fähigkeiten erfordern, siehe Cross-Modal-Einbettungen: Brückenschlag zwischen KI-Modalitäten.
  • Leistung und Anwendungsfälle

    • Branchenführende Ergebnisse in der Textsuche, Code-Suche, Klassifizierung, Clusterbildung und Bitext-Mining.
    • Reranker-Modelle zeichnen sich in verschiedenen Textsuchszenarien aus und können nahtlos mit Einbettungsmodellen für End-to-End-Abrufpipelines kombiniert werden.

Verwendung auf Ollama

Sie können diese Modelle auf Ollama mit Befehlen wie diesen ausführen:

ollama run dengcao/Qwen3-Embedding-8B:Q5_K_M
ollama run dengcao/Qwen3-Reranker-0.6B:F16

Wählen Sie die Quantisierungsversion, die am besten zu Ihren Hardware- und Leistungsanforderungen passt.


Update Dezember 2025: Nun stellt Ollama Standard-Qwen3-Einbettungsmodelle aus seinem eigenen Repository bereit, nicht aus dem von dengcao:

ollama pull qwen3-embedding:8b
ollama pull qwen3-embedding:4b

Mehr dazu: https://ollama.com/library/qwen3-embedding

Zusammenfassungstabelle

Modelltyp Verfügbare Größen Hauptstärken Mehrsprachige Unterstützung Quantisierungsoptionen
Einbettung 0.6B, 4B, 8B Top-MTEB-Punktzahlen, flexibel, effizient, SOTA Ja (100+ Sprachen) Q4, Q5, Q6, Q8, etc.
Neuklassifizierer 0.6B, 4B, 8B Hervorragend bei Textpaar-Relevanz, effizient, flexibel Ja F16, Q4, Q5, etc.

Fantastische Nachrichten!

Die Qwen3 Embedding- und Reranker-Modelle auf Ollama stellen einen bedeutenden Sprung in den mehrsprachigen, multitaskfähigen Text- und Code-Abruffähigkeiten dar. Mit flexiblen Bereitstellungsoptionen, starken Benchmark-Ergebnissen und der Unterstützung einer breiten Palette von Sprachen und Aufgaben sind sie sowohl für Forschungsumgebungen als auch für den produktiven Einsatz gleichermaßen gut geeignet.

Modellzoo – nun eine Freude für die Augen

Qwen3 Einbettung

https://ollama.com/dengcao/Qwen3-Embedding-8B

Qwen3 Embedding 8b

https://ollama.com/dengcao/Qwen3-Embedding-4B/tags

Qwen3 Embedding 4b

https://ollama.com/dengcao/Qwen3-Embedding-0.6B/tags

Qwen3 Embedding 0.6b

Qwen3 Neuklassifizierer

https://ollama.com/dengcao/Qwen3-Reranker-8B

Qwen3 Reranker 8b

dengcao/Qwen3-Reranker-8B:Q3_K_M
dengcao/Qwen3-Reranker-8B:Q5_K_M

https://ollama.com/dengcao/Qwen3-Reranker-4B/tags

dengcao/Qwen3-Reranker-4B:Q5_K_M

Qwen3-Reranker-4B

https://ollama.com/dengcao/Qwen3-Reranker-0.6B/tags

Qwen3-Reranker-0.6B

Schön!