AIシステム：セルフホスト型アシスタント、RAG、およびローカルインフラ

大多数のローカルAI環境は、モデルとランタイムから始まります。

量子化モデルをダウンロードし、Ollamaまたは他のランタイムを通じて起動して、プロンプト入力を行います。実験段階であれば、これだけで十分です。しかし、好奇心を超えて—メモリ、検索品質、ルーティングの決定、コスト意識などを重視し始めると—その単純さが限界を露呈し始めます。

このクラスターは異なるアプローチを探求します：AIアシスタントを単一のモデル呼び出しとしてではなく、協調されたシステムとして扱うことです。

この違いは最初は微妙に思えるかもしれませんが、ローカルAIへの考え方を根本的に変えます。

ローカルLLM、RAG、メモリレイヤーによるAIシステムオーケストレーション

AIシステムとは何か

AIシステムは単なるモデル以上のものです。推論、検索、メモリ、実行を接続し、一貫性のあるアシスタントのように振る舞うものを生み出すオーケストレーションレイヤーです。

モデルをローカルで実行することはインフラストラクチャ作業です。そのモデルを中心にアシスタントを設計することはシステム作業です。

以下のより広範なガイドを探索してきた場合：

すでに推論がスタックの1つのレイヤーに過ぎないことをご存知でしょう。

AIシステムクラスターはこれらのレイヤーの上に位置します。それらを置き換えるのではなく、組み合わせます。

OpenClaw：セルフホスト型AIアシスタントシステム

OpenClawはオープンソースのセルフホスト型AIアシスタントで、ローカルインフラストラクチャ上で動作しながらメッセージングプラットフォーム全体で運用されるように設計されています。

実用的な観点から、以下の機能を提供します：

OllamaやvLLMなどのローカルLLMランタイムを使用
インデックス化されたドキュメント上での検索を統合
単一セッションを超えてメモリを維持
ツールと自動化タスクを実行
計装および可観測性を備える
ハードウェア制約内で動作

これは単なるモデルのラッパーではありません。推論、検索、メモリ、実行を接続し、一貫性のあるアシスタントのように振る舞うものを生み出すオーケストレーションレイヤーです。

開始およびアーキテクチャ：

OpenClawクイックスタートガイド — ローカルのOllamaモデルまたはクラウドベースのClaude設定を使用したDockerベースのインストール
OpenClawシステム概要 — OpenClawがより単純なローカルセットアップとどのように異なるかのアーキテクチャ的探索
OpenClawの安全な運用のためのNemoClawガイド — OpenShellサンドボックス、ポリシー階層、ルーティングされた推論、および2日目以降の運用を備えたセキュリティファーストなOpenClawパス

文脈と分析：

OpenClawの台と落ちのタイムライン — バイラルスパイクの背後にある経済性、2026年4月のサブスクリプション終了、そして崩壊がAIハイプサイクルについて示唆すること

OpenClawの拡張と設定：

プラグインはOpenClawランタイムを拡張し—メモリバックエンド、モデルプロバイダー、通信チャネル、ウェブツール、可観測性を追加します。スキルはエージェントの動作を拡張し—エージェントがそれらの機能を使用する方法とタイミングを定義します。プロダクション設定とは、実際にシステムを使用している人围绕に形作られた両方を組み合わせることを意味します。

OpenClawプラグイン—エコシステムガイドと実用的な選択 — ネイティブプラグインタイプ、CLIライフサイクル、安全性レール、およびメモリ、チャネル、ツール、可観測性のための具体的な選択
OpenClawスキルエコシステムと実用的なプロダクション選択 — ClawHub探索、インストールおよび削除フロー、役割別スタック、および2026年に保持する価値のあるスキル
プラグインとスキルによるOpenClawプロダクションセットアップパターン — 開発者、自動化、研究、サポート、成長というユーザータイプ別の完全なプラグインとスキル設定—それぞれに組み合わせたインストールスクリプト付き

Hermes：スキルとツールサンドボックスを備えた永続的エージェント

Hermesエージェントはセルフホスト型、モデル非依存的なアシスタントで、永続的な動作に焦点を当てています：長寿命プロセスとして実行でき、構成可能なバックエンドを通じてツールを実行し、メモリと再利用可能なスキルを通じて時間とともにワークフローを改善できます。

実用的な観点から、Hermesは以下を望む場合に有用です：

メッセージングアプリにもブリッジできるターミナルファーストのアシスタント
OpenAI互換エンドポイントとモデル切り替えによるプロバイダーの柔軟性
ローカルおよびサンドボックス化されたバックエンドによるツール実行境界
診断、ログ、構成の健全性を備えた2日目以降の運用

Hermesプロファイルは完全に隔離された環境です—それぞれに独自の構成、シークレット、メモリ、セッション、スキル、状態を備え、プロファイルが個別のスキルではなく実際のプロダクション所有の単位となっています。

Hermes AIアシスタント—インストール、セットアップ、ワークフロー、およびトラブルシューティング — インストール、プロバイダー設定、ワークフローパターン、およびトラブルシューティング
HermesエージェントCLIチートシート—コマンド、フラグ、およびスラッシュショートカット — hermesサブコマンド、グローバルフラグ、ゲートウェイおよびプロファイルツール、一般的なスラッシュショートカットの表形式索引
Hermesエージェントメモリシステム：永続的AIメモリが実際にどのように動作するか — 2ファイルコアメモリ、フローズンスナップショットパターン、すべての8つの外部プロバイダー、およびバウンデッドメモリの哲学に関する深技術ガイド
実プロダクションセットアップのためのHermes AIアシスタントスキル — エンジニア、研究者、オペレーター、エグゼクティブワークフローのためのプロファイルファーストスキルアーキテクチャ
Hermesエージェントスキル作成—SKILL.md構造とベストプラクティス — 実用的なSKILL.mdレイアウト、メタデータ、条件付きアクティベーション、およびスキルが索引から消えた時のトラブルシューティング
セルフホスト型LLMワークフローのためのHermesエージェントでのKanban — セルフホスト型ゲートウェイでのディスパッチャー並行性、依存チェーン、およびcronベースのバッチングのための実用的な制御パターン

永続的知識とメモリ

一部の課題は、より大きなコンテキストウィンドウだけでは解決されません—それらは永続的知識（グラフ、インジェストパイプライン）とエージェントメモリプラグイン（Honcho、Mem0、Hindsight、および同様のバックエンド）をHermesやOpenClawなどのアシスタントに接続する必要があります。

AIシステムメモリハブ — メモリサブクラスターの範囲およびCogneeガイドとスタックコンテキストへのリンク
エージェントメモリプロバイダーの比較 — Honcho、OpenViking、Mem0、Hindsight、Holographic、RetainDB、ByteRover、SupermemoryのHermesスタイル統合のための完全な比較

AIシステムを特徴づけるもの

いくつかの特性がAIシステムをより詳細に検討する価値があります。

モデルルーティングを設計選択として

大多数のローカルセットアップは1つのモデルをデフォルトとします。AIシステムは意図的なモデル選択をサポートします。

これにより以下のような質問が生じます：

小さなリクエストは小さいモデルを使用すべきか？
推論がより大きなコンテキストウィンドルを正当化するタイミングは？
1,000トークンあたりのコスト差は？

これらの質問は、LLMパフォーマンスガイドで議論されたパフォーマンストレードオフや、LLMホスティングガイドで概説されたインフラストラクチャ決定と直接関連します。

AIシステムはこれらの決定を隠すのではなく、表面化します。

検索は進化し続けるコンポーネントとして扱われる

AIシステムはドキュメント検索を統合しますが、単純な「埋め込みと検索」ステップとしてではありません。

それらは以下を認めます：

チャンクサイズは再帰想とコストに影響する
ハイブリッド検索（BM25 + ベクトル）は純粋な密集検索よりも優れている可能性がある
リランキングはコスト（レイテンシ）を犠牲にして関連性を改善する
インデックス戦略はメモリ消費に影響する

これらのテーマは、RAGチュートリアルで議論されたより深いアーキテクチャ的考慮事項と一致します。

違いは、AIシステムが検索を隔離されたデモとして提示するのではなく、生きているアシスタントに埋め込むことです。

メモリをインフラストラクチャとして

ステートレスLLMはセッション間ですべてを忘れます。

AIシステムは永続的メモリレイヤーを導入します。これにより直ちに設計上の質問が生じます：

何を持続的に保存すべきか？
コンテキストを要約すべきタイミングは？
トークン爆発をどのように防止するか？
メモリをどのように効率的にインデックスするか？

これらの質問は、データインフラストラクチャガイドからのデータレイヤーの考慮事項と直接交差します。Hermesエージェントに特に—バウンデッド2ファイルメモリ、プレフィックスキャッシング、外部プラグイン—Hermesエージェントメモリシステムおよびクロスフレームワーク比較エージェントメモリプロバイダーの比較から始めてください。AIシステムメモリハブは関連するCogneeおよび知識レイヤーガイドをリストしています。

メモリは機能でなくなり、ストレージ問題となります。

可観測性はオプションではない

大多数のローカルAI実験は「応答する」に留まります。

AIシステムは以下を観察可能にします：

トークン使用量
レイテンシ
ハードウェア利用率
スループットパターン

これは、可観測性ガイドで説明されたモニタリング原則と自然に接続します。

AIがハードウェア上で実行されるなら、他のワークロードと同様に測定可能であるべきです。

使用感

外側から、AIシステムは依然としてチャットインターフェースのように見えるかもしれません。

表面の下では、より多くのことが起こります。

ローカルに保存された技術レポートの要約を依頼する場合：

関連するドキュメントセグメントを検索します。
適切なモデルを選択します。
応答を生成します。
トークン使用量とレイテンシを記録します。
必要に応じて永続的メモリを更新します。

見える相互作用は単純なままです。システム動作は層状です。

この層状動作がシステムとデモを区別します。

スタックにおけるAIシステムの位置

AIシステムクラスターは、いくつかのインフラストラクチャレイヤーの交差点に位置します：

LLMホスティング：モデルが実行されるランタイムレイヤー（Ollama、vLLM、llama.cpp）
RAG：コンテキストとグランドを提供する検索レイヤー
パフォーマンス：レイテンシとスループットを追跡する測定レイヤー
可観測性：メトリクスとコスト追跡を提供するモニタリングレイヤー
データインフラストラクチャ：メモリとインデックスを処理するストレージレイヤー

この違いを理解することは有用です。自分自身で実行することで、その違いがより明確になります。

OpenClawを使用した最小限のローカルインストールについては、OpenClawクイックスタートガイドをご覧ください。これはローカルのOllamaモデルまたはクラウドベースのClaude設定を使用したDockerベースのセットアップを案内します。

設定がClaudeに依存する場合、エージェントツールに関するこのポリシー変更が、なぜサードパーティOpenClawワークフローにAPI課金が現在必要とされるかを明確にします。