LLM

Шпаргалка по Docker Model Runner: команды и примеры

Шпаргалка по Docker Model Runner: команды и примеры

Быстрая справка по командам Docker Model Runner

Docker Model Runner (DMR) — это официальное решение Docker для запуска моделей ИИ локально, представленное в апреле 2025 года. Этот справочник предоставляет быстрый доступ ко всем основным командам, настройкам и лучшим практикам.

Docker Model Runner против Ollama (2026): что лучше для локальных LLMs?

Docker Model Runner против Ollama (2026): что лучше для локальных LLMs?

Сравните Docker Model Runner и Ollama для локальных LLM

Запуск больших языковых моделей (LLM) локально стал все более популярным из-за приватности, контроля затрат и возможностей офлайн-работы. Ландшафт значительно изменился в апреле 2025 года, когда Docker представил Docker Model Runner (DMR), свое официальное решение для развертывания моделей ИИ.

Возвышение ASIC для LLM: Почему аппаратное обеспечение инференса имеет значение

Возвышение ASIC для LLM: Почему аппаратное обеспечение инференса имеет значение

Специализированные чипы ускоряют и удешевляют выводы ИИ

Будущее ИИ не ограничивается более умными моделями - это также вопрос более умного кремния. Специализированное оборудование для инференса ЛЛМ приводит к революции, аналогичной переходу майнинга биткоинов к ASIC.

DGX Spark и Mac Studio: сравнение цен на персональный ИИ-суперкомпьютер NVIDIA

DGX Spark и Mac Studio: сравнение цен на персональный ИИ-суперкомпьютер NVIDIA

Доступность, фактические розничные цены в шести странах и сравнение с Mac Studio.

NVIDIA DGX Spark — это реальный продукт, доступный к продаже с 15 октября 2025 года, ориентированный на разработчиков CUDA, которым требуется локальная работа с LLM с использованием интегрированного стека NVIDIA AI. Рекомендованная розничная цена в США составляет $3,999; в Великобритании, Германии и Японии розничная цена выше из-за НДС и каналов дистрибуции. Публичные ценники для Австралии и Южной Кореи (AUD/KRW) пока не опубликованы широко.

Сравнение: Qwen3:30b против GPT-OSS:20b

Сравнение: Qwen3:30b против GPT-OSS:20b

Сравнение скорости, параметров и производительности этих двух моделей

Вот сравнение между Qwen3:30b и GPT-OSS:20b, с акцентом на выполнение инструкций и параметры производительности, спецификации и скорость.

Проблемы структурированного вывода в Ollama GPT-OSS

Проблемы структурированного вывода в Ollama GPT-OSS

Не очень приятно.

Модели GPT-OSS от Ollama (https://www.glukhov.org/ru/llm-performance/ollama/ollama-gpt-oss-structured-output-issues/ “Ollama GPT-OSS”) постоянно сталкиваются с проблемами при работе со структурированным выводом, особенно при использовании с фреймворками вроде LangChain, OpenAI SDK, vllm и другими.

Сравнение структурированного вывода среди популярных поставщиков LLM — OpenAI, Gemini, Anthropic, Mistral и AWS Bedrock

Сравнение структурированного вывода среди популярных поставщиков LLM — OpenAI, Gemini, Anthropic, Mistral и AWS Bedrock

Немного отличающиеся API требуют особого подхода.

Вот сравнение поддержки структурированного вывода (получение надежного JSON) среди популярных поставщиков LLM, а также минимальные примеры на Python

LLM и структурированный вывод: Ollama, Qwen3 & Python или Go

LLM и структурированный вывод: Ollama, Qwen3 & Python или Go

Несколько способов получения структурированного вывода из Ollama

Большие языковые модели (LLM) мощные, но в производстве мы редко хотим свободноформатных абзацев. Вместо этого нам нужны предсказуемые данные: атрибуты, факты или структурированные объекты, которые можно передать в приложение. Это Структурированный вывод LLM.

Оллама Эншитификация: ранние признаки

Оллама Эншитификация: ранние признаки

Моё мнение о текущем состоянии разработки Ollama

Ollama быстро стал одним из самых популярных инструментов для запуска локальных моделей большого языка (LLM). Его простой интерфейс командной строки и упрощенное управление моделями сделали его предпочтительным вариантом для разработчиков, которые хотят работать с моделями ИИ вне облака.

Интерфейсы чатов для локальных экземпляров Ollama

Интерфейсы чатов для локальных экземпляров Ollama

Краткий обзор наиболее заметных интерфейсов для Ollama в 2025 году

Локально размещённый Ollama позволяет запускать большие языковые модели на вашем собственном устройстве, но использование его через командную строку не очень удобно. Вот несколько открытых проектов, которые предоставляют интерфейсы в стиле ChatGPT, подключающиеся к локальному Ollama.

NVIDIA DGX Spark — новый компактный суперкомпьютер для искусственного интеллекта

NVIDIA DGX Spark — новый компактный суперкомпьютер для искусственного интеллекта

В июле 2025 года, скоро это должно стать доступно.

Nvidia вот-вот выпустит NVIDIA DGX Spark — компактный ИИ-суперкомпьютер на архитектуре Blackwell с более чем 128 ГБ объединенной памяти и производительностью 1 ПФЛОПС для задач искусственного интеллекта. Отличное устройство для запуска больших языковых моделей (LLM).

Протокол контекста модели (MCP) и заметки о реализации сервера MCP на Go

Протокол контекста модели (MCP) и заметки о реализации сервера MCP на Go

Статья о спецификациях и реализации MCP на языке GO

Здесь представлено описание Протокола Контекста Модели (MCP), краткие заметки о том, как реализовать MCP сервер на Go, включая структуру сообщений и спецификации протокола.

Переранжирование документов с помощью Ollama и модели Qwen3 Reranker на языке Go

Переранжирование документов с помощью Ollama и модели Qwen3 Reranker на языке Go

Внедряете RAG? Вот несколько фрагментов кода на Go — часть 2...

Поскольку стандартный Ollama не имеет прямого API для пересчета рангов (rerank), вам потребуется реализовать пересчет рангов с использованием Qwen3 Reranker на GO путем генерации эмбеддингов для пар «запрос-документ» и их оценки.