LLM - Page 2 - Rost Glukhov | Persönliche Website und technischer Blog

Installation und Konfiguration von Claude Code für Ollama und llama.cpp, Preise

Claude Code ist nicht einfach nur Autovervollständigung mit besserem Marketing. Es ist ein agentenbasiertes Coding-Tool: Es liest Ihre Codebasis, editiert Dateien, führt Befehle aus und integriert sich in Ihre Entwicklungstools.

Hermes KI-Assistent – Installation, Einrichtung, Arbeitsablauf und Fehlerbehebung

Hermes Agent ist ein selbst gehosteter, modellagnostischer KI-Assistent, der auf einem lokalen Computer oder einem kostengünstigen VPS läuft, über Terminal- und Messaging-Schnittstellen arbeitet und sich im Laufe der Zeit verbessert, indem er wiederkehrende Aufgaben in wiederverwendbare Fähigkeiten umwandelt.

TGI – Text Generation Inference – Installation, Konfiguration, Fehlerbehebung

Text Generation Inference (TGI) hat eine sehr spezifische Energie. Es ist nicht das neueste Kind auf der Inferenz-Straße, aber es ist dasjenige, das bereits gelernt hat, wie Produktion funktioniert –

LLM-Benchmarks mit 16 GB VRAM und llama.cpp (Geschwindigkeit und Kontext)

Hier vergleiche ich die Geschwindigkeit verschiedener LLMs, die auf einer GPU mit 16 GB VRAM laufen, und wähle das beste Modell für den Selbst-Hosting-Einsatz aus.

RTX 5090 in Australien: Preis, Verfügbarkeit und Realität im März 2026

Australien verfügt über RTX 5090-Lagerbestände. Kaum. Und wenn Sie eine finden, zahlen Sie einen Aufpreis, der sich von der Realität zu lösen scheint.

Remote-Zugriff auf Ollama über Tailscale oder WireGuard, ohne öffentliche Ports

Ollama ist am glücklichsten, wenn es wie ein lokaler Daemon behandelt wird: Die CLI und Ihre Apps kommunizieren mit einer Loopback-HTTP-API, und der Rest des Netzwerks erfährt nie von ihrer Existenz.

Ollama in Docker Compose mit GPU und persistenter Modell-Speicherung

Ollama funktioniert hervorragend auf Bare Metal. Es wird noch interessanter, wenn man es wie einen Service behandelt: ein stabiler Endpunkt, fixierte Versionen, persistente Speicherung und eine GPU, die entweder verfügbar ist oder eben nicht.

Ollama hinter einem Reverse-Proxy mit Caddy oder Nginx für HTTPS-Streaming

Das Betreiben von Ollama hinter einem Reverse-Proxy ist der einfachste Weg, HTTPS, optionale Zugriffskontrolle und ein vorhersagbares Streaming-Verhalten zu erhalten.

Text-Embeddings für RAG und Suche – Python, Ollama, OpenAI-kompatible APIs

Wenn Sie sich mit retrieval-augmented generation (RAG) beschäftigen, führt dieser Abschnitt Sie in einfachen Worten durch Text-Embeddings – was sie sind, wie sie in Suche und Abruf passen und wie man zwei gängige lokale Setups von Python aus mit Ollama oder einer OpenAI-kompatiblen HTTP-API aufruft (wie sie von vielen llama.cpp-basierten Servern bereitgestellt werden).

SGLang-Schnellstart: LLMs installieren, konfigurieren und über die OpenAI-API bereitstellen

SGLang ist ein leistungsfähiges Bereitstellungsframework für große Sprachmodelle und multimodale Modelle, das entwickelt wurde, um Inferenz mit geringer Latenz und hohem Durchsatz von einzelnen GPUs bis hin zu verteilten Clustern zu ermöglichen.

llama.swap Modellwechsler: Schnellstart für OpenAI-kompatible lokale LLMs

Bald jonglieren Sie mit vLLM, llama.cpp und mehr – jeder Stack auf einem eigenen Port. Alles nachgeschaltete System erwartet dennoch eine einzige /v1-Basis-URL; andernfalls sortieren Sie ständig Ports, Profile und Einmal-Skripte neu. llama-swap ist der /v1-Proxy vor diesen Stacks.

KI-Systeme: Selbstgehostete Assistenten, RAG und lokale Infrastruktur

Die meisten lokalen KI-Setups beginnen mit einem Modell und einer Laufzeitumgebung.

Oh My Opencode-Review: Ehrliche Ergebnisse, Abrechnungsrisiken und wann es sich lohnt.

Oh My Opencode verspricht ein „virtuelles KI-Entwicklerteam" — Sisyphus dirigiert Spezialisten, Aufgaben werden parallel ausgeführt und das magische Schlüsselwort ultrawork aktiviert alles.

Specialisierte Agents von Oh My Opencode: Tiefenanalyse und Modellübersicht

Der größte Sprung in den Fähigkeiten von OpenCode stammt von spezialisierten Agenten: einer bewussten Trennung von Orchestrierung, Planung, Ausführung und Recherche.

Oh My Opencode QuickStart für OpenCode: Installieren, konfigurieren, ausführen

Oh My Opencode verwandelt OpenCode in einen Multi-Agent-Coding-Rahmen: Ein Orchestrator delegiert Aufgaben an spezialisierte Agenten, die parallel arbeiten.

Die besten LLMs für OpenCode – Von Gemma 4 bis Qwen 3.6, lokal getestet

Ich habe getestet, wie sich OpenCode mit mehreren lokal auf Ollama und llama.cpp gehosteten LLMs verhält, und habe zum Vergleich einige kostenlose Modelle von OpenCode Zen hinzugefügt.