LLM - Page 3 - Рост Глухов | Персональный сайт и технический блог

Быстрый старт с LocalAI: запуск локальных LLM, совместимых с OpenAI

LocalAI — это самодостаточный сервер вывода с приоритетом на локальное использование, разработанный для работы как прямая замена OpenAI API для запуска ИИ-нагрузок на вашем собственном оборудовании (ноутбук, рабочая станция или сервер в центре обработки данных).

Быстрый старт с llama.cpp: командная строка и сервер

Я постоянно возвращаюсь к llama.cpp для локального инференса — он дает контроль, который скрывают Ollama и другие решения, и просто работает. Легко запускать модели GGUF интерактивно через llama-cli или предоставлять совместимый с OpenAI HTTP-интерфейс через llama-server.

Инструменты для разработчиков ИИ: Полное руководство по разработке с использованием искусственного интеллекта

Искусственный интеллект трансформирует процессы написания, проверки, развертывания и поддержки программного обеспечения. От ИИ-ассистентов для написания кода до автоматизации GitOps и DevOps-процессов — разработчики теперь полагаются на инструменты, powered by AI, на всех этапах жизненного цикла разработки ПО.

Быстрый старт с OpenCode: установка, настройка и использование агента ИИ для кодирования в терминале

OpenCode — это агент для программирования на базе ИИ с открытым исходным кодом, который можно запускать в терминале (TUI + CLI) с дополнительными интерфейсами для рабочего стола и IDE. Это руководство по быстрому старту OpenCode Quickstart: установка, проверка, подключение модели/провайдера и запуск рабочих процессов (CLI + API).

Мониторинг инференса LLM в продакшене (2026): Prometheus и Grafana для vLLM, TGI и llama.cpp

Инференс LLM выглядит как «еще один API» — до тех пор, пока не возникнут скачки задержки, не начнут накапливаться очереди, а ваши GPU не окажутся загружены по памяти на 95% без очевидной причины.

OpenClaw: Исследование самохостингового ИИ-ассистента как реальной системы

Большинство локальных конфигураций ИИ начинаются одинаково: модель, среда выполнения и интерфейс чата.

Быстрый старт с OpenClaw: установка через Docker (Ollama с GPU или Claude + CPU)

OpenClaw — это самостоятельно размещаемый ИИ-ассистент, предназначенный для работы с локальными средами выполнения LLM, такими как Ollama, или с облачными моделями, такими как Claude Sonnet.

Реализация приложений Workflow с использованием Temporal на Go: Полное руководство

Comprehensive guide to building workflows with the Temporal Go SDK including setup, code examples, configuration details, deployment strategies, and troubleshooting tips for production-grade applications.

Наблюдаемость систем LLM: метрики, трассировка, логи и тестирование в продакшене

Build an end-to-end observability strategy for LLM inference and LLM applications: what to measure, how to instrument, which tools to use, how to control cardinality and sampling, and how to deploy and scale the telemetry pipeline securely.

Наблюдаемость в продакшене: мониторинг, метрики, Prometheus и Grafana. Руководство (2026)

Наблюдаемость — это основа надежных продакшн-систем.

Без метрик, дашбордов и алертинга кластеры Kubernetes постепенно деградируют, рабочие нагрузки ИИ отказывают без предупреждения, а проблемы с задержками остаются незамеченными до тех пор, пока пользователи не начнут жаловаться.

Руководство по RAG (Retrieval-Augmented Generation): архитектура, реализация и развертывание в продакшене

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.

Производительность LLM в 2026 году: бенчмарки, узкие места и оптимизация

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Размещение LLM в 2026 году: сравнение локальных, self-hosted и облачных инфраструктур

Strategic guide to hosting large language models locally with Ollama, llama.cpp, vLLM, or in the cloud. Compare tools, performance trade-offs, and cost considerations.

Самостоятельное размещение LLM и суверенитет ИИ

Хостинг больших языковых моделей (LLM) на собственных серверах обеспечивает контроль над данными, моделями и процессом инференса — это практический путь к суверенному искусственному интеллекту для команд, предприятий и целых стран.

Сравнение производительности больших языковых моделей на Ollama с видеокартой 16 ГБ VRAM

Запуск крупных языковых моделей локально обеспечивает вам конфиденциальность, возможность работы оффлайн и отсутствие затрат на API. Этот бенчмарк раскрывает, чего именно можно ожидать от 14 популярных LLMs на Ollama на RTX 4080.

Топ-17 популярных проектов на Python в GitHub

Экосистема Python в этом месяце доминируется Claude Skills и инструментами для AI-агентов. В этом обзоре мы анализируем топовые трендовые репозитории Python на GitHub.