AI - Page 5 - Рост Глухов | Персональный сайт и технический блог

Продвинутый RAG: объяснение LongRAG, Self-RAG и GraphRAG

Генерация с дополнением извлечения (RAG) развилась далеко за пределы простого поиска по векторной схожести. LongRAG, Self-RAG и GraphRAG представляют собой передовой край этих возможностей.

FLUX.1-dev — это мощная модель генерации изображений по тексту, которая производит потрясающие результаты, но её требование к памяти в 24 ГБ и более делает её сложной для запуска на многих системах. Квантование FLUX.1-dev в формате GGUF предлагает решение, уменьшая использование памяти примерно на 50% при сохранении отличного качества изображений.

Руководство по настройке размера контекста Docker Model Runner

Настройка размеров контекста в Docker Model Runner сложнее, чем должно быть.

FLUX.1-Kontext-dev: ИИ для преобразования изображений

Black Forest Labs выпустила FLUX.1-Kontext-dev, продвинутую модель искусственного интеллекта для преобразования изображений, которая дополняет существующие изображения с помощью текстовых инструкций.

Добавление поддержки GPU NVIDIA в Docker Model Runner

Docker Model Runner — это официальный инструмент Docker для запуска моделей ИИ локально, но включение ускорения NVIDIA GPU в Docker Model Runner требует специальной настройки.

Снижение затрат на LLM: стратегии оптимизации токенов

Оптимизация токенов — это критический навык, отличающий экономически эффективные приложения на основе LLM от экспериментов, разоряющих бюджет.

Самостоятельное размещение Immich: частное фотооблако

Immich — это революционное открытое программное обеспечение с открытым исходным кодом для управления фотографиями и видео, которое дает вам полный контроль над вашими воспоминаниями. С функциями, сопоставимыми с Google Photos, включая распознавание лиц с использованием ИИ, умный поиск и автоматическое резервное копирование с мобильных устройств, при этом все ваши данные остаются конфиденциальными и защищенными на вашем собственном сервере.

Сравнение производительности Ollama: NVIDIA DGX Spark против Mac Studio против RTX-4080

Я выкопал некоторые интересные тесты производительности GPT-OSS 120b, работающего на Ollama на трех разных платформах: NVIDIA DGX Spark, Mac Studio и RTX 4080. Модель GPT-OSS 120b из библиотеки Ollama весит 65ГБ, что означает, что она не помещается в 16ГБ видеопамяти RTX 4080 (или более новой RTX 5080).

Создание серверов MCP на Python: руководство по веб-поиску и парсингу

Протокол Контекста Модели (MCP) революционизирует способ взаимодействия ИИ-ассистентов с внешними источниками данных и инструментами. В этом руководстве мы исследуем, как строить MCP-серверы на Python, с примерами, сосредоточенными на возможностях веб-поиска и парсинга.

Шпаргалка по Docker Model Runner: команды и примеры

Docker Model Runner (DMR) — это официальное решение Docker для запуска моделей ИИ локально, представленное в апреле 2025 года. Этот справочник предоставляет быстрый доступ ко всем основным командам, настройкам и лучшим практикам.

Docker Model Runner против Ollama (2026): что лучше для локальных LLMs?

Запуск больших языковых моделей (LLM) локально стал все более популярным из-за приватности, контроля затрат и возможностей офлайн-работы. Ландшафт значительно изменился в апреле 2025 года, когда Docker представил Docker Model Runner (DMR), свое официальное решение для развертывания моделей ИИ.

ASIC для больших языковых моделей и специализированные чипы для вывода (почему они важны)

Будущее ИИ связано не только с более умными моделями. Речь также идет о кремнии, который соответствует тому, как эти модели фактически обслуживаются. Специализированное оборудование для инференса LLM следует путем, напоминающим переход майнинга биткоинов с графических процессоров (GPU) на специализированные интегральные схемы (ASIC), только с более жесткими ограничениями, поскольку модели и схемы точности постоянно эволюционируют.

DGX Spark и Mac Studio: сравнение цен на персональный ИИ-суперкомпьютер NVIDIA

NVIDIA DGX Spark — это реальный продукт, доступный к продаже с 15 октября 2025 года, ориентированный на разработчиков CUDA, которым требуется локальная работа с LLM с использованием интегрированного стека NVIDIA AI. Рекомендованная розничная цена в США составляет $3,999; в Великобритании, Германии и Японии розничная цена выше из-за НДС и каналов дистрибуции. Публичные ценники для Австралии и Южной Кореи (AUD/KRW) пока не опубликованы широко.

Клиенты Go для Ollama: сравнение SDK и примеры Qwen3/GPT-OSS

Этот гайд предоставляет всесторонний обзор доступных Go SDK для Ollama и сравнивает их функциональные возможности.

Вот сравнение между Qwen3:30b и GPT-OSS:20b, с акцентом на выполнение инструкций и параметры производительности, спецификации и скорость.

Проблемы структурированного вывода в Ollama GPT-OSS

Модели GPT-OSS от Ollama (https://www.glukhov.org/ru/llm-performance/ollama/ollama-gpt-oss-structured-output-issues/ “Ollama GPT-OSS”) постоянно сталкиваются с проблемами при работе со структурированным выводом, особенно при использовании с фреймворками вроде LangChain, OpenAI SDK, vllm и другими.

AI

Продвинутый RAG: объяснение LongRAG, Self-RAG и GraphRAG

Запуск FLUX.1-dev GGUF Q8 в Python

Руководство по настройке размера контекста Docker Model Runner

FLUX.1-Kontext-dev: ИИ для преобразования изображений

Добавление поддержки GPU NVIDIA в Docker Model Runner

Снижение затрат на LLM: стратегии оптимизации токенов

Самостоятельное размещение Immich: частное фотооблако

Сравнение производительности Ollama: NVIDIA DGX Spark против Mac Studio против RTX-4080

Создание серверов MCP на Python: руководство по веб-поиску и парсингу

Шпаргалка по Docker Model Runner: команды и примеры

Docker Model Runner против Ollama (2026): что лучше для локальных LLMs?

ASIC для больших языковых моделей и специализированные чипы для вывода (почему они важны)

DGX Spark и Mac Studio: сравнение цен на персональный ИИ-суперкомпьютер NVIDIA

Клиенты Go для Ollama: сравнение SDK и примеры Qwen3/GPT-OSS

Сравнение: Qwen3:30b против GPT-OSS:20b

Проблемы структурированного вывода в Ollama GPT-OSS