Rost Glukhov | 個人サイトとテクニカルブログ

オンラインで知識を公開する主流のモデルは、2000年代初頭からほとんど変化していません。何かを書き、磨き上げ、公開し、次に進む。

トピック別にノート整理するのは理にかなっているように思えます。しかし、PostgreSQLに関するノートが5つの異なるフォルダに散らばり、今日の課題に必要な特定のノートが見つからない状況に陥ると、その方法は通用しなくなります。

工学に関するメモのほとんどは、一度書かれると忘れ去られます。デバッグセッションで得た知見を記録し、どこかに貼り付け、2年後に見つけたときには、なぜそれが重要だったのかという文脈が一切ありません。

700億パラメータのモデルを使って200語のメールを要約するのは無駄です。30億パラメータのモデルで本番環境のコードレビューを行うのは無謀です。多くのシステムはその中間に位置しており、そこがモデルルーティングの登場シーンです。

シングルモデルのシステムはシンプルです。マルチモデルのシステムは強力です。課題はモデルを選ぶことではなく、それらを調整するアーキテクチャを設計することにあります。

LLM（大規模言語モデル）は予測不可能な性質を持っています。ハルシネーション（幻覚）を起こしたり、データを漏洩させたり、有害なコンテンツを生成したり、正当なリクエストを拒否したりすることがあります。ガードレール（安全策）は、モデルの機能を損なうことなく、その振る舞いを制限します。

LLMのコストは利用量に対して線形に比例して増加します。1日10,000リクエスト、1リクエストあたり0.01ドルで処理するシステムの場合、日額コストは100ドル、年間では365ドルになります。エンタープライズ規模では、それが1万ドルを超えます。

メモリはアシスタントを反応型から永続型へと変えますが、同時に多くのシステムが静かに劣化してしまう箇所でもあります。調査では、短期的メモリと長期的メモリの二分法是では現代のエージェントメモリには不十分であると指摘されています。OpenAIやLangGraphのSDKは、よりシンプルな構成、つまりワーキングメモリ、永続的な状態、および検索による取得（リトリーブ）へと焦点を移しています。

本番環境向けのAIアシスタントは「プロンプト付きのLLM」ではありません。インテント（意図）を受け付け、状態を保持し、いつ検索を実行すべきか、いつ行動すべきかを決定し、障害のデバッグに必要なランタイムの詳細を公開するシステムなのです。

AIは知識管理を置き換えるものではありません。むしろ、個人およびチームにとって知識管理の形そのものを変革しています。

開発者は通常、情報の不足に悩まされるわけではありません。むしろ、情報が過多であることに苦しんでいます。

OpenClaw対Hermesエージェント：スター数、ダウンロード数、および2026年の利用状況

オープンソースのAIエージェントフレームワークは、GitHub上でその人気を急速に高めています。セルフホスト型AIシステムのエコシステムの中核をなす2つのプロジェクト、OpenClawとHermes Agentは、他を大きく引き離し、残りのライバルたちは遠い3位の座を争う状況になっています。

16GB GPUにおけるQwen 3.6 27Bおよび35B MTPと標準モデルの比較

RTX 4080（16 GB VRAM）環境で、Qwen 3.6 27Bおよび35Bにおける推論デコーディング（マルチトークン予測、MTP）のパフォーマンスをテストしました。

llama.cpp ラーターモードは、llama-server における数年間で最も有用な変更の一つです。これにより、ローカルLLM運用者は、Ollamaで期待されるようなモデル管理体験に近いものをようやく手に入れることができました。同時に、llama-server を使い続ける価値がある生のパフォーマンスと低レベルの制御も維持されています。

最新の知識システムのほとんどは検索（Retrieval）を最適化しています。それは理解できることです。検索は目に見えやすく、デモンストレーションも容易で、機能すると魔法のように感じられます。質問を入力すれば、答えが返ってきます。

前提はシンプルです。コンパイルされた知識は、取得された断片的な情報よりも再利用性が高いというものです。 RAG（検索強化生成）は、LLM（大規模言語モデル）に外部知識へのアクセスをどのように与えるかという直接的な問いに対するデフォルトの答えとなりました。

デジタルガーデン：知識を単に公開するのではなく、育てよう

エンジニアのためのPARAメソッド：行動によって知識を整理する

エバーグリーンノート：時間とともに複利のように価値を増していくメモの書き方

モデルルーティング：すべてのタスクに1つのモデルを使うのをやめましょう

マルチモデルシステム設計：単一モデルでは不十分な場合

LLMのガードレール実践ガイド：実際に効果的な手法とは

LLMシステムのコスト最適化：費用の実際の使途

AIアシスタントにおけるメモリシステム

AIアシスタントのアーキテクチャ：LLM、メモリ、ツール、ルーティング、可視化

知識管理のためのAI：実務で通用するワークフロー

開発者向けツェッテルカステン：実践的に機能する方法

OpenClaw対Hermesエージェント：スター数、ダウンロード数、および2026年の利用状況

16GB GPUにおけるQwen 3.6 27Bおよび35B MTPと標準モデルの比較

llama.cppルータモデルをすべてアンロードする

知識システムにおける「検索」と「表現」

LLM Wiki：RAGでは代替できない統合された知識

購読する