SelfHosting

TGI（Text Generation Inference）のインストール、設定、トラブルシューティング

Text Generation Inference (TGI) は、非常に特有の雰囲気を持っています。推論の分野で最も新しい子供ではありませんが、すでに本番環境でのトラブルを学び、その教訓をデフォルト設定に焼き付けているのが TGI です。

SGLang クイックスタート：OpenAI API を介して LLM のインストール、設定、およびサービス提供

SGLang は、大規模言語モデルおよびマルチモーダルモデル向けの高パフォーマンスなサービングフレームワークであり、単一の GPU から分散クラスターに至るまで、低レイテンシかつ高スループットの推論を提供するために設計されています。

llama.swap モデル切り換え器の OpenAI 互換ローカル LLM 向けクイックスタート

まもなく vLLM や llama.cpp など、それぞれのスタックが独自のポートで稼働している状態に陥ります。下流のシステムはすべて**/v1というベース URL を求めるため、ポート、プロファイル、ワンオフスクリプトを頻繁に変更することになります。llama-swapは、これらのスタックの前に配置される/v1**プロキシです。

大多数のローカルAI環境は、モデルとランタイムから始まります。

ローカル推論には、llama.cpp に戻って利用する機会が多いです。Ollama 他が抽象化して隠している部分を自分で制御できるだけでなく、すぐに動作するからです。GGUFモデルを llama-cli で対話的に実行したり、llama-server で OpenAI 互換の HTTP API を公開したりするのが簡単です。

ほとんどのローカルAI環境の構築は、同じところから始まります。モデル、ランタイム、そしてチャットインターフェース。

「Strapi vs Directus vs Payload: ヘッドレスCMS比較」

正しいヘッドレス CMS の選択は、コンテンツ管理戦略を成功させるか、失敗させるかを左右します。開発者がコンテンツ駆動型アプリケーションを構築する方法に影響を与える3つのオープンソースソリューションを比較してみましょう。

ここに、AI 支援コーディングツールと AI コーディングアシスタントの良い点についていくつかリストアップします。

SelfHosting

TGI（Text Generation Inference）のインストール、設定、トラブルシューティング

SGLang クイックスタート：OpenAI API を介して LLM のインストール、設定、およびサービス提供

llama.swap モデル切り換え器の OpenAI 互換ローカル LLM 向けクイックスタート

AIシステム：セルフホスト型アシスタント、RAG、およびローカルインフラ

llama.cpp の CLI とサーバーによるクイックスタート

OpenClaw：実システムとしてのセルフホスト型AIアシスタントの考察

「Strapi vs Directus vs Payload: ヘッドレスCMS比較」

AI コーディングアシスタントの比較