AIシステム:セルフホスト型アシスタント、RAG、およびローカルインフラ

目次

大多数のローカルAI環境は、モデルとランタイムから始まります。

量子化モデルをダウンロードし、Ollamaまたは他のランタイムを通じて起動して、プロンプト入力を行います。実験段階であれば、これだけで十分です。しかし、好奇心を超えて—メモリ、検索品質、ルーティングの決定、コスト意識などを重視し始めると—その単純さが限界を露呈し始めます。

このクラスターは異なるアプローチを探求します:AIアシスタントを単一のモデル呼び出しとしてではなく、協調されたシステムとして扱うことです。

この違いは最初は微妙に思えるかもしれませんが、ローカルAIへの考え方を根本的に変えます。

ローカルLLM、RAG、メモリレイヤーによるAIシステムオーケストレーション


AIシステムとは何か

AIシステムは単なるモデル以上のものです。推論、検索、メモリ、実行を接続し、一貫性のあるアシスタントのように振る舞うものを生み出すオーケストレーションレイヤーです。

モデルをローカルで実行することはインフラストラクチャ作業です。そのモデルを中心にアシスタントを設計することはシステム作業です。

以下のより広範なガイドを探索してきた場合:

すでに推論がスタックの1つのレイヤーに過ぎないことをご存知でしょう。

AIシステムクラスターはこれらのレイヤーの上に位置します。それらを置き換えるのではなく、組み合わせます。


OpenClaw:セルフホスト型AIアシスタントシステム

OpenClawはオープンソースのセルフホスト型AIアシスタントで、ローカルインフラストラクチャ上で動作しながらメッセージングプラットフォーム全体で運用されるように設計されています。

実用的な観点から、以下の機能を提供します:

  • OllamaやvLLMなどのローカルLLMランタイムを使用
  • インデックス化されたドキュメント上での検索を統合
  • 単一セッションを超えてメモリを維持
  • ツールと自動化タスクを実行
  • 計装および可観測性を備える
  • ハードウェア制約内で動作

これは単なるモデルのラッパーではありません。推論、検索、メモリ、実行を接続し、一貫性のあるアシスタントのように振る舞うものを生み出すオーケストレーションレイヤーです。

開始およびアーキテクチャ:

文脈と分析:

  • OpenClawの台と落ちのタイムライン — バイラルスパイクの背後にある経済性、2026年4月のサブスクリプション終了、そして崩壊がAIハイプサイクルについて示唆すること

OpenClawの拡張と設定:

プラグインはOpenClawランタイムを拡張し—メモリバックエンド、モデルプロバイダー、通信チャネル、ウェブツール、可観測性を追加します。スキルはエージェントの動作を拡張し—エージェントがそれらの機能を使用する方法とタイミングを定義します。プロダクション設定とは、実際にシステムを使用している人围绕に形作られた両方を組み合わせることを意味します。


Hermes:スキルとツールサンドボックスを備えた永続的エージェント

Hermesエージェントはセルフホスト型、モデル非依存的なアシスタントで、永続的な動作に焦点を当てています:長寿命プロセスとして実行でき、構成可能なバックエンドを通じてツールを実行し、メモリと再利用可能なスキルを通じて時間とともにワークフローを改善できます。

実用的な観点から、Hermesは以下を望む場合に有用です:

  • メッセージングアプリにもブリッジできるターミナルファーストのアシスタント
  • OpenAI互換エンドポイントとモデル切り替えによるプロバイダーの柔軟性
  • ローカルおよびサンドボックス化されたバックエンドによるツール実行境界
  • 診断、ログ、構成の健全性を備えた2日目以降の運用

Hermesプロファイルは完全に隔離された環境です—それぞれに独自の構成、シークレット、メモリ、セッション、スキル、状態を備え、プロファイルが個別のスキルではなく実際のプロダクション所有の単位となっています。


永続的知識とメモリ

一部の課題は、より大きなコンテキストウィンドウだけでは解決されません—それらは永続的知識(グラフ、インジェストパイプライン)とエージェントメモリプラグイン(Honcho、Mem0、Hindsight、および同様のバックエンド)をHermesやOpenClawなどのアシスタントに接続する必要があります。


AIシステムを特徴づけるもの

いくつかの特性がAIシステムをより詳細に検討する価値があります。

モデルルーティングを設計選択として

大多数のローカルセットアップは1つのモデルをデフォルトとします。AIシステムは意図的なモデル選択をサポートします。

これにより以下のような質問が生じます:

  • 小さなリクエストは小さいモデルを使用すべきか?
  • 推論がより大きなコンテキストウィンドルを正当化するタイミングは?
  • 1,000トークンあたりのコスト差は?

これらの質問は、LLMパフォーマンスガイドで議論されたパフォーマンストレードオフや、LLMホスティングガイドで概説されたインフラストラクチャ決定と直接関連します。

AIシステムはこれらの決定を隠すのではなく、表面化します。

検索は進化し続けるコンポーネントとして扱われる

AIシステムはドキュメント検索を統合しますが、単純な「埋め込みと検索」ステップとしてではありません。

それらは以下を認めます:

  • チャンクサイズは再帰想とコストに影響する
  • ハイブリッド検索(BM25 + ベクトル)は純粋な密集検索よりも優れている可能性がある
  • リランキングはコスト(レイテンシ)を犠牲にして関連性を改善する
  • インデックス戦略はメモリ消費に影響する

これらのテーマは、RAGチュートリアルで議論されたより深いアーキテクチャ的考慮事項と一致します。

違いは、AIシステムが検索を隔離されたデモとして提示するのではなく、生きているアシスタントに埋め込むことです。

メモリをインフラストラクチャとして

ステートレスLLMはセッション間ですべてを忘れます。

AIシステムは永続的メモリレイヤーを導入します。これにより直ちに設計上の質問が生じます:

  • 何を持続的に保存すべきか?
  • コンテキストを要約すべきタイミングは?
  • トークン爆発をどのように防止するか?
  • メモリをどのように効率的にインデックスするか?

これらの質問は、データインフラストラクチャガイドからのデータレイヤーの考慮事項と直接交差します。Hermesエージェントに特に—バウンデッド2ファイルメモリ、プレフィックスキャッシング、外部プラグイン—Hermesエージェントメモリシステムおよびクロスフレームワーク比較エージェントメモリプロバイダーの比較から始めてください。AIシステムメモリハブは関連するCogneeおよび知識レイヤーガイドをリストしています。

メモリは機能でなくなり、ストレージ問題となります。

可観測性はオプションではない

大多数のローカルAI実験は「応答する」に留まります。

AIシステムは以下を観察可能にします:

  • トークン使用量
  • レイテンシ
  • ハードウェア利用率
  • スループットパターン

これは、可観測性ガイドで説明されたモニタリング原則と自然に接続します。

AIがハードウェア上で実行されるなら、他のワークロードと同様に測定可能であるべきです。


使用感

外側から、AIシステムは依然としてチャットインターフェースのように見えるかもしれません。

表面の下では、より多くのことが起こります。

ローカルに保存された技術レポートの要約を依頼する場合:

  1. 関連するドキュメントセグメントを検索します。
  2. 適切なモデルを選択します。
  3. 応答を生成します。
  4. トークン使用量とレイテンシを記録します。
  5. 必要に応じて永続的メモリを更新します。

見える相互作用は単純なままです。システム動作は層状です。

この層状動作がシステムとデモを区別します。


スタックにおけるAIシステムの位置

AIシステムクラスターは、いくつかのインフラストラクチャレイヤーの交差点に位置します:

  • LLMホスティング:モデルが実行されるランタイムレイヤー(Ollama、vLLM、llama.cpp)
  • RAG:コンテキストとグランドを提供する検索レイヤー
  • パフォーマンス:レイテンシとスループットを追跡する測定レイヤー
  • 可観測性:メトリクスとコスト追跡を提供するモニタリングレイヤー
  • データインフラストラクチャ:メモリとインデックスを処理するストレージレイヤー

この違いを理解することは有用です。自分自身で実行することで、その違いがより明確になります。

OpenClawを使用した最小限のローカルインストールについては、OpenClawクイックスタートガイドをご覧ください。これはローカルのOllamaモデルまたはクラウドベースのClaude設定を使用したDockerベースのセットアップを案内します。

設定がClaudeに依存する場合、エージェントツールに関するこのポリシー変更が、なぜサードパーティOpenClawワークフローにAPI課金が現在必要とされるかを明確にします。


関連リソース

AIアシスタントガイド:

インフラストラクチャレイヤー:

購読する

システム、インフラ、AIエンジニアリングの新記事をお届けします。