Скорость генерации токенов llama.cpp на 16 ГБ видеопамяти (таблицы).
Здесь я сравниваю скорость нескольких больших языковых моделей (LLM), работающих на видеокарте с 16 ГБ видеопамяти, и выбираю лучшую для локального развертывания.
Управляйте данными и моделями с помощью развернутых локально LLM
Хостинг больших языковых моделей (LLM) на собственных серверах обеспечивает контроль над данными, моделями и процессом инференса — это практический путь к суверенному искусственному интеллекту для команд, предприятий и целых стран.
Запуск крупных языковых моделей локально обеспечивает вам конфиденциальность, возможность работы оффлайн и отсутствие затрат на API.
Этот бенчмарк раскрывает, чего именно можно ожидать от 14 популярных
LLMs на Ollama на RTX 4080.
Сегодня мы рассматриваем топовые потребительские графические процессоры и модули оперативной памяти. Конкретно я смотрю на цены на RTX-5080 и RTX-5090, а также на 32ГБ (2x16ГБ) DDR5 6000.
Актуальные цены в австралийских долларах от местных розничных продавцов уже доступны.
Компьютер
NVIDIA DGX Spark
(GB10 Grace Blackwell)
поступил в продажу в Австралии
у крупных розничных продавцов компьютеров с наличием на местных складах.
Если вы следите за
мировым ценообразованием и доступностью DGX Spark,
то вам будет интересно узнать, что в Австралии цены варьируются от 6 249 до 7 999 австралийских долларов в зависимости от конфигурации накопителей и конкретного продавца.
После автоматической установки нового ядра, Ubuntu 24.04 потеряла сетевое подключение по Ethernet. Эта раздражающая проблема произошла со мной во второй раз, поэтому я документирую решение здесь, чтобы помочь другим, столкнувшимся с той же проблемой.
Развертывание корпоративного ИИ на бюджетном оборудовании с использованием открытых моделей.
Демократизация искусственного интеллекта уже здесь.
С появлением открытых LLM, таких как Llama, Mistral и Qwen, которые теперь не уступают проприетарным моделям, команды могут создавать мощную инфраструктуру ИИ на потребительском оборудовании — значительно сокращая расходы при сохранении полного контроля над конфиденциальностью данных и развертыванием.
Я выкопал некоторые интересные тесты производительности GPT-OSS 120b, работающего на Ollama на трех разных платформах: NVIDIA DGX Spark, Mac Studio и RTX 4080. Модель GPT-OSS 120b из библиотеки Ollama весит 65ГБ, что означает, что она не помещается в 16ГБ видеопамяти RTX 4080 (или более новой RTX 5080).