Производительность LLM в 2026 году: бенчмарки, узкие места и оптимизация
Производительность LLM — это не только наличие мощного GPU. Скорость инференса, задержка и экономическая эффективность зависят от ограничений во всем стеке:
- Размер модели и квантование
- Объем VRAM и пропускная способность памяти
- Длина контекста и размер промпта
- Планирование выполнения и батчинг
- Использование ядер CPU
- Топология системы (линии PCIe, NUMA и т. д.)
Этот раздел объединяет глубокие исследования того, как большие языковые модели ведут себя при реальной нагрузке, и способы их оптимизации.
Что такое производительность LLM на самом деле
Производительность — понятие многомерное.
Пропускная способность против задержки
- Пропускная способность = токенов в секунду по многим запросам
- Задержка = время до первого токена + общее время ответа
Большинству реальных систем необходимо балансировать между ними.

Порядок ограничений
На практике узкие места обычно возникают в таком порядке:
- Объем VRAM
- Пропускная способность памяти
- Планирование выполнения
- Размер контекстного окна
- Нагрузка на CPU
Понимание того, какое именно ограничение вы достигли, важнее, чем просто «обновление оборудования».
Производительность среды выполнения Ollama
Ollama широко используется для локального инференса. Понимание ее поведения под нагрузкой имеет критическое значение.
Планирование ядер CPU
Обработка параллельных запросов
Поведение выделения памяти
Проблемы среды выполнения с структурированным выводом
Аппаратные ограничения, имеющие значение
Не все проблемы производительности связаны с вычислительной мощностью GPU.
Эффекты PCIe и топологии
Тренды специализированных вычислений
Бенчмарки и сравнение моделей
Бенчмарки должны отвечать на вопрос принятия решения.
Сравнение аппаратных платформ
Реальные тесты на VRAM объемом 16 ГБ
Потребительские GPU с 16 ГБ памяти являются распространенной точкой разрыва для размещения моделей, размера кэша KV и того, остаются ли слои на устройстве. В постах ниже рассматриваются одинаковые классы оборудования, но разные стеки — среда выполнения Ollama против llama.cpp с явным перебором контекста, — что позволяет разделить влияние «планировщика и упаковки» на чистую пропускную способность и запас VRAM.
- Выбор лучшей LLM для Ollama на GPU с 16 ГБ VRAM
- Бенчмарки LLM с 16 ГБ VRAM с использованием llama.cpp (скорость и контекст)
- Qwen 3.6 27B и 35B MTP против Standard на GPU с 16 ГБ — измеряет, насколько встроенное в llama.cpp спекулятивное декодирование MTP ускоряет генерацию Qwen 3.6 и какова цена этого для контекстного окна на видеокарте с 16 ГБ памяти
Бенчмарки скорости и качества моделей
- Параметры агентного инференса — Qwen и Gemma
- Qwen3 30B против GPT-OSS 20B
- Gemma2 против Qwen2 против Mistral Nemo 12B
- Mistral Small против Gemma2 против Qwen2.5 против Mistral Nemo
Структурированный вывод и валидация
Стресс-тесты возможностей
Плейбук по оптимизации
Настройка производительности должна быть постепенной.
Шаг 1 — Уместить модель
- Уменьшите размер модели
- Используйте квантование
- Ограничьте размер контекстного окна
Шаг 2 — Стабилизация задержки
- Снизьте стоимость префилинга
- Избегайте ненужных повторных попыток
- Валидируйте структурированные выводы на раннем этапе
Шаг 3 — Увеличение пропускной способности
- Увеличьте батчинг
- Настройте конкурентность
- Используйте среды выполнения, ориентированные на сервис, при необходимости
Если ваша узкая стратегия хостинга, а не поведение среды выполнения, см.:
Часто задаваемые вопросы
Почему моя LLM работает медленно даже на мощном GPU?
Чаще всего проблема в пропускной способности памяти, длине контекста или планировании выполнения, а не в чистой вычислительной мощности.
Что важнее: размер VRAM или модель GPU?
Объем VRAM обычно является первым жестким ограничением. Если модель не помещается в память, ничего другого не имеет значения.
Почему производительность падает при конкурентности?
Очереди, конкуренция за ресурсы и ограничения планировщика вызывают кривые деградации.
Финальные мысли
Производительность LLM — это инженерия, а не гадание.
Измеряйте осознанно.
Понимайте ограничения.
Оптимизируйте, исходя из узких мест, а не предположений.