Системы ИИ: самодостаточные ассистенты, RAG и локальная инфраструктура

Содержимое страницы

Большинство локальных установок ИИ начинаются с модели и среды выполнения.

Вы скачиваете квантованную модель, запускаете её через Ollama или другую среду выполнения и начинаете вводить запросы. Для экспериментов этого более чем достаточно. Но как только вы переходите от простого любопытства к практическому применению — когда вам начинают важны потребление памяти, качество извлечения данных, принятие решений по маршрутизации или контроль затрат — простота такого подхода начинает демонстрировать свои ограничения.

В этом кластере рассматривается другой подход: рассмотрение ИИ-ассистента не как единого вызова модели, а как скоординированной системы.

Это различие может показаться незначительным на первый взгляд, но оно полностью меняет ваше восприятие локального ИИ.

Оркестрация систем ИИ с локальными LLM, RAG и слоями памяти


Что такое система ИИ?

Система ИИ — это нечто большее, чем просто модель. Это слой оркестрации, который соединяет вывод (инференс), извлечение данных, память и выполнение в нечто, ведущее себя как связный ассистент.

Запуск модели локально — это задача по настройке инфраструктуры. Проектирование ассистента вокруг этой модели — это задача системного уровня.

Если вы уже изучали наши более широкие руководства по:

вы уже знаете, что инференс — это лишь один из слоев стека.

Кластер «Системы ИИ» находится поверх этих слоев. Он не заменяет их — он объединяет их.


OpenClaw: самостоятельно размещаемая система ИИ-ассистента

OpenClaw — это ИИ-ассистент с открытым исходным кодом, предназначенный для самостоятельного размещения и работающий через мессенджеры при использовании локальной инфраструктуры.

На практическом уровне он:

  • Использует локальные среды выполнения LLM, такие как Ollama или vLLM
  • Интегрирует извлечение данных из проиндексированных документов
  • Поддерживает память за пределами одной сессии
  • Выполняет инструменты и задачи автоматизации
  • Может быть инструментализирован и наблюдаем
  • Работает в рамках аппаратных ограничений

Это не просто обертка вокруг модели. Это слой оркестрации, соединяющий инференс, извлечение, память и выполнение в нечто, ведущее себя как связный ассистент.

Начало работы и архитектура:

Контекст и анализ:

Расширение и настройка OpenClaw:

Плагин расширяют среду выполнения OpenClaw — добавляя бэкэнды памяти, провайдеров моделей, каналы связи, веб-инструменты и наблюдаемость. Навыки расширяют поведение агента — определяя, как и когда агент использует эти возможности. Продуктивная конфигурация означает объединение обоих типов, сформированное вокруг тех, кто фактически использует систему.


Hermes: персистентный агент с навыками и песочницей для инструментов

Hermes Agent — это самостоятельно размещаемый, независимый от модели ассистент, ориентированный на персистентную работу: он может работать как долгоживущий процесс, выполнять инструменты через настраиваемые бэкэнды и улучшать рабочие процессы со временем благодаря памяти и повторно используемым навыкам.

На практическом уровне Hermes полезен, когда вам нужно:

  • Ассистент, ориентированный на терминал, который также может интегрироваться с мессенджерами
  • Гибкость провайдеров через endpoints, совместимые с OpenAI, и переключение моделей
  • Границы выполнения инструментов через локальные и песочные бэкэнды
  • Повседневная эксплуатация с диагностикой, журналами и гигиеной конфигурации

Профили Hermes — это полностью изолированные среды — каждая со своей конфигурацией, секретами, памятью, сессиями, навыками и состоянием — что делает профили реальной единицей производственного владения, а не отдельный навык.


Персистентные знания и память

Некоторые проблемы не решаются только увеличением контекстного окна — им нужны персистентные знания (графы, конвейеры инжиниринга) и плагины памяти агентов (Honcho, Mem0, Hindsight и подобные бэкэнды), интегрированные в ассистенты, такие как Hermes или OpenClaw.


Что отличает системы ИИ

Несколько характеристик делают системы ИИ заслуживающими более пристального внимания.

Маршрутизация моделей как дизайнерский выбор

Большинство локальных установок по умолчанию используют одну модель. Системы ИИ поддерживают осознанный выбор моделей.

Это вводит следующие вопросы:

  • Должны ли небольшие запросы использовать меньшие модели?
  • Когда рассуждания оправдывают более широкий контекстный окно?
  • Какова разница в стоимости на 1000 токенов?

Эти вопросы напрямую связаны с компромиссами производительности, обсуждаемыми в руководстве по производительности LLM, и инфраструктурными решениями, изложенными в руководстве по хостингу LLM.

Системы ИИ выводят эти решения на поверхность, вместо того чтобы скрывать их.

Извлечение данных рассматривается как развивающийся компонент

Системы ИИ интегрируют извлечение документов, но не как простой шаг «встроить и поискать».

Они признают:

  • Размер чанка влияет на припоминание и стоимость
  • Гибридный поиск (BM25 + векторный) может превзойти чисто плотное извлечение
  • Реранкинг улучшает релевантность ценой задержки
  • Стратегия индексирования влияет на потребление памяти

Эти темы согласуются с более глубокими архитектурными соображениями, обсуждаемыми в учебном пособии по RAG.

Разница в том, что системы ИИ встраивают извлечение в живой ассистент, а не представляют его как изолированную демонстрацию.

Память как инфраструктура

Бессостоятельные LLM забывают всё между сессиями.

Системы ИИ вводят персистентные слои памяти. Это сразу порождает дизайнерские вопросы:

  • Что должно храниться в долгосрочной перспективе?
  • Когда контекст должен быть суммаризирован?
  • Как предотвратить взрыв токенов?
  • Как эффективно индексировать память?

Эти вопросы напрямую пересекаются с соображениями слоя данных из руководства по инфраструктуре данных. Для агента Hermes в частности — ограниченной памяти из двух файлов, кэширования префиксов, внешних плагинов — начните с Системы памяти агента Hermes и кросс-фреймворкового сравнения Сравнение провайдеров памяти агентов. В Центре памяти систем ИИ перечислены связанные руководства по Cognee и слоям знаний.

Память перестает быть функцией и становится проблемой хранения.

Наблюдаемость не является опциональной

Большинство локальных экспериментов с ИИ останавливаются на «он отвечает».

Системы ИИ делают возможным наблюдение за:

  • Использованием токенов
  • Задержкой
  • Использованием оборудования
  • Паттернами пропускной способности

Это естественно связано с принципами мониторинга, описанными в руководстве по наблюдаемости.

Если ИИ работает на оборудовании, он должен быть измеримым, как любая другая нагрузка.


Как это ощущается при использовании

Снаружи система ИИ может все еще выглядеть как интерфейс чата.

Под поверхностью происходит больше процессов.

Если вы попросите его суммаризовать технический отчет, хранящийся локально:

  1. Он извлекает соответствующие сегменты документа.
  2. Он выбирает подходящую модель.
  3. Он генерирует ответ.
  4. Он фиксирует использование токенов и задержку.
  5. Он обновляет персистентную память при необходимости.

Видимое взаимодействие остается простым. Поведение системы многослойно.

Именно это многослойное поведение отличает систему от демонстрации.


Где системы ИИ занимают место в стеке

Кластер «Системы ИИ» находится на пересечении нескольких инфраструктурных слоев:

  • Хостинг LLM: Слой выполнения, где модели работают (Ollama, vLLM, llama.cpp)
  • RAG: Слой извлечения, который предоставляет контекст и заземление
  • Производительность: Слой измерения, который отслеживает задержку и пропускную способность
  • Наблюдаемость: Слой мониторинга, который предоставляет метрики и отслеживание затрат
  • Инфраструктура данных: Слой хранения, который обрабатывает память и индексацию

Понимание этого различия полезно. Самостоятельный запуск делает это различие еще более очевидным.

Для минимальной локальной установки с OpenClaw см. руководство по быстрому старту OpenClaw, которое проводит вас через настройку на базе Docker с использованием либо локальной модели Ollama, либо облачной конфигурации Claude.

Если ваша установка зависит от Claude, это изменение политики для инструментов агентов объясняет, почему теперь требуется биллинг API для сторонних рабочих процессов OpenClaw.


Связанные ресурсы

Руководства по ИИ-ассистентам:

Инфраструктурные слои:

Подписаться

Получайте новые материалы про системы, инфраструктуру и AI engineering.