Модели встраивания и переупорядочивания Qwen3 на Ollama: передовые показатели производительности

Новые впечатляющие LLM доступны в Ollama

Содержимое страницы

Модели встраивания и переупорядочивания Qwen3 являются новейшими релизами в семействе Qwen, специально разработанными для продвинутых задач встраивания текста (embedding), поиска и переупорядочивания результатов (reranking).

Визуальное удовольствие Длина контекста и размерность встраивания для Qwen3 Embedding Reranker

Модели Qwen3 Embedding и Reranker представляют собой значительный прорыв в многоязычной обработке естественного языка (NLP), предлагая передовые результаты в задачах встраивания текста и переупорядочивания. Эти модели, входящие в серию Qwen, разработанную Alibaba, предназначены для поддержки широкого спектра приложений: от семантического поиска до поиска кода. Такие возможности встраивания являются фундаментальными для создания эффективных систем RAG, что подробно рассматривается в Учебнике по генерации с дополнением извлечения (RAG): архитектура, реализация и руководство для продакшена. Хотя Ollama является популярной платформой с открытым исходным кодом для размещения и развертывания больших языковых моделей (LLM), интеграция моделей Qwen3 с Ollama не подробно описана в официальной документации. Тем не менее, модели доступны через Hugging Face, GitHub и ModelScope, что позволяет потенциально развернуть их локально через Ollama или аналогичные инструменты.

Примеры использования этих моделей

Пожалуйста, ознакомьтесь с образцами кода на Go с использованием ollama и этими моделями:

Обзор новых моделей Qwen3 Embedding и Reranker на Ollama

Эти модели теперь доступны для развертывания на Ollama в различных размерах, обеспечивая передовую производительность и гибкость для широкого спектра языковых и связанных с кодом приложений.

Ключевые особенности и возможности

  • Размеры моделей и гибкость

    • Доступны в нескольких размерах: 0.6B, 4B и 8B параметров как для задач встраивания, так и для переупорядочивания.
    • Модель встраивания 8B в настоящее время занимает 1-е место в многоязычном лидерстве MTEB (по состоянию на 5 июня 2025 года, со счетом 70.58).
    • Поддерживает ряд опций квантования (Q4, Q5, Q8 и т. д.) для баланса между производительностью, использованием памяти и скоростью. Q5_K_M рекомендуется для большинства пользователей, так как он сохраняет большую часть производительности модели, оставаясь при этом эффективным по ресурсам.
  • Архитектура и обучение

    • Построены на основе Qwen3, используя как двухкодерную (для встраиваний), так и кросс-кодерную (для переупорядочивания) архитектуры.
    • Модель встраивания: обрабатывает отдельные сегменты текста, извлекая семантические представления из финального скрытого состояния.
    • Модель переупорядочивания: принимает пары текста (например, запрос и документ) и выдает оценку релевантности, используя подход кросс-энкодера.
    • Модели встраивания используют трехэтапную парадигму обучения: контрастное предобучение, контролируемое обучение с использованием высококачественных данных и объединение моделей для оптимальной обобщающей способности и адаптивности.
    • Модели переупорядочивания обучаются напрямую на высококачественных размеченных данных для обеспечения эффективности и результативности.
  • Многоязычная и многозадачная поддержка

    • Поддерживает более 100 языков, включая языки программирования, обеспечивая надежные возможности многоязычного, межъязыкового и поиска кода.
    • Модели встраивания позволяют гибко определять векторы и использовать пользовательские инструкции для настройки производительности под конкретные задачи или языки.
    • Для приложений, требующих мультимодальных возможностей beyond текста, см. Кросс-модальные встраивания: объединение модальностей ИИ.
  • Производительность и сценарии использования

    • Передовые результаты в извлечении текста, поиске кода, классификации, кластеризации и поиске билингвальных текстов.
    • Модели переупорядочивания превосходно справляются с различными сценариями извлечения текста и могут бесшовно комбинироваться с моделями встраивания для создания конвейеров извлечения от начала до конца.

Как использовать на Ollama

Вы можете запустить эти модели на Ollama с помощью команд:

ollama run dengcao/Qwen3-Embedding-8B:Q5_K_M
ollama run dengcao/Qwen3-Reranker-0.6B:F16

Выберите версию квантования, которая лучше всего соответствует вашим аппаратным требованиям и потребностям в производительности.


Обновление декабрь 2025: Теперь Ollama предоставляет стандартные модели встраивания Qwen3 из своего собственного репозитория, а не от dengcao:

ollama pull qwen3-embedding:8b
ollama pull qwen3-embedding:4b

Подробнее: https://ollama.com/library/qwen3-embedding

Сводная таблица

Тип модели Доступные размеры Ключевые преимущества Многоязычная поддержка Опции квантования
Embedding 0.6B, 4B, 8B Топовые баллы MTEB, гибкость, эффективность, SOTA Да (100+ языков) Q4, Q5, Q6, Q8, и т.д.
Reranker 0.6B, 4B, 8B Превосходство в оценке релевантности пар текста, эффективность, гибкость Да F16, Q4, Q5, и т.д.

Потрясающие новости!

Модели Qwen3 Embedding и Reranker на Ollama представляют собой значительный скачок в возможностях многоязычного и многозадачного извлечения текста и кода. Благодаря гибким вариантам развертывания, высоким показателям в бенчмарках и поддержке широкого спектра языков и задач, они отлично подходят как для исследовательских, так и для производственных сред.

Зверинец моделей — визуальное удовольствие сейчас

Qwen3 Embedding

https://ollama.com/dengcao/Qwen3-Embedding-8B

Qwen3 Embedding 8b

https://ollama.com/dengcao/Qwen3-Embedding-4B/tags

Qwen3 Embedding 4b

https://ollama.com/dengcao/Qwen3-Embedding-0.6B/tags

Qwen3 Embedding 0.6b

Qwen3 Reranker

https://ollama.com/dengcao/Qwen3-Reranker-8B

Qwen3 Reranker 8b

dengcao/Qwen3-Reranker-8B:Q3_K_M
dengcao/Qwen3-Reranker-8B:Q5_K_M

https://ollama.com/dengcao/Qwen3-Reranker-4B/tags

dengcao/Qwen3-Reranker-4B:Q5_K_M

Qwen3-Reranker-4B

https://ollama.com/dengcao/Qwen3-Reranker-0.6B/tags

Qwen3-Reranker-0.6B

Отлично!

Полезные ссылки