LLM - Page 4 - Рост Глухов | Персональный сайт и технический блог

Быстрый старт с llama.cpp: командная строка и сервер

Я продолжаю возвращаться к llama.cpp для локального инференса — он предоставляет контроль, который Ollama и другие решения абстрагируют, и просто работает. Легко запускать модели GGUF интерактивно с помощью llama-cli или экспонировать HTTP API, совместимое с OpenAI, с помощью llama-server.

Инструменты для разработчиков ИИ: Полное руководство по разработке с использованием искусственного интеллекта

Искусственный интеллект трансформирует процессы написания, проверки, развертывания и поддержки программного обеспечения. От ИИ-ассистентов для написания кода до автоматизации GitOps и DevOps-процессов — разработчики теперь полагаются на инструменты, powered by AI, на всех этапах жизненного цикла разработки ПО.

Быстрый старт с OpenCode: установка, настройка и использование агента ИИ для кодирования в терминале

OpenCode — это агент для программирования на базе ИИ с открытым исходным кодом, который можно запускать в терминале (TUI + CLI) с дополнительными интерфейсами для рабочего стола и IDE. Это руководство по быстрому старту OpenCode Quickstart: установка, проверка, подключение модели/провайдера и запуск рабочих процессов (CLI + API).

Мониторинг инференса LLM в продакшене (2026): Prometheus и Grafana для vLLM, TGI и llama.cpp

Инференс LLM выглядит как «еще один API» — до тех пор, пока не возникнут скачки задержки, не начнут накапливаться очереди, а ваши GPU не окажутся загружены по памяти на 95% без очевидной причины.

OpenClaw: Исследование самохостинга ИИ-ассистента как реальной системы

Большинство локальных конфигураций искусственного интеллекта начинаются одинаково: модель, среда выполнения и интерфейс чата.

Быстрый старт OpenClaw: установка с помощью Docker (Ollama GPU или Claude + CPU)

OpenClaw — это автономный ИИ-ассистент, предназначенный для работы с локальными средами выполнения LLM, такими как Ollama, или с облачными моделями, такими как Claude Sonnet.

Реализация приложений Workflow с использованием Temporal на Go: Полное руководство

Comprehensive guide to building workflows with the Temporal Go SDK including setup, code examples, configuration details, deployment strategies, and troubleshooting tips for production-grade applications.

Наблюдаемость систем LLM: метрики, трассировка, логи и тестирование в продакшене

Build an end-to-end observability strategy for LLM inference and LLM applications: what to measure, how to instrument, which tools to use, how to control cardinality and sampling, and how to deploy and scale the telemetry pipeline securely.

Наблюдаемость в продакшене: мониторинг, метрики, Prometheus и Grafana. Руководство (2026)

Наблюдаемость — это основа надежных продакшн-систем.

Без метрик, дашбордов и алертинга кластеры Kubernetes постепенно деградируют, рабочие нагрузки ИИ отказывают без предупреждения, а проблемы с задержками остаются незамеченными до тех пор, пока пользователи не начнут жаловаться.

Руководство по генерации с расширенным поиском (RAG): архитектура, реализация и внедрение в производство

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.

LLM-хостинг в 2026 году: сравнение локальной, самообслуживаемой и облачной инфраструктуры

Strategic guide to hosting large language models locally with Ollama, llama.cpp, vLLM, or in the cloud. Compare tools, performance trade-offs, and cost considerations.

Производительность LLM в 2026 году: бенчмарки, узкие места и оптимизация

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Самостоятельное размещение LLM и суверенитет ИИ

Хостинг больших языковых моделей (LLM) на собственных серверах обеспечивает контроль над данными, моделями и процессом инференса — это практический путь к суверенному искусственному интеллекту для команд, предприятий и целых стран.

Сравнение производительности LLM на Ollama на GPU с 16 ГБ VRAM

Запуск больших языковых моделей локально обеспечивает конфиденциальность, возможность работы автономно и нулевые затраты на API. Это тестирование показывает, чего именно можно ожидать от 14 популярных LLM в Ollama на RTX 4080.

Топ-17 популярных проектов на Python в GitHub

Экосистема Python в этом месяце доминируется Claude Skills и инструментами для AI-агентов. В этом обзоре мы анализируем топовые трендовые репозитории Python на GitHub.

Экосистема Rust бурно развивается, особенно в области инструментов для программирования на основе ИИ и терминальных приложений. Этот обзор анализирует самые популярные репозитории Rust на GitHub в этом месяце.