LLM - Page 3 - Rost Glukhov | Persönliche Website und technischer Blog

OpenHands Coding Assistant – Schnellstart: Installation, CLI-Parameter, Beispiele

OpenHands ist eine Open-Source-Plattform, die modellagnostisch für KI-gesteuerte Softwareentwicklungs-Agenten ist. Sie ermöglicht es einem Agenten, sich mehr wie ein Coding-Partner als wie ein einfaches Autovervollständigungstool zu verhalten.

LocalAI QuickStart: OpenAI-kompatible LLMs lokal ausführen

LocalAI ist ein selbstgehosteter, lokal-first Inferenzserver, der sich wie eine Drop-in OpenAI API verhält, um KI-Arbeitslasten auf Ihrer eigenen Hardware (Laptop, Workstation oder lokaler Server) auszuführen.

Schnellstart mit llama.cpp: CLI und Server

Ich komme immer wieder zu llama.cpp für die lokale Inferenz zurück – es gibt Ihnen Kontrolle, die Ollama und andere abstrahieren, und es funktioniert einfach. Das interaktive Ausführen von GGUF-Modellen mit llama-cli oder das Bereitstellen einer OpenAI-kompatiblen HTTP-API mit llama-server ist einfach.

KI-Entwickler-Tools: Der umfassende Leitfaden für KI-gestützte Entwicklung

Künstliche Intelligenz verändert die Art und Weise, wie Software geschrieben, überprüft, bereitgestellt und gewartet wird. Von KI-Coding-Assistenten bis hin zu GitOps-Automatisierung und DevOps-Workflows setzen Entwickler heute KI-gestützte Tools über den gesamten Software-Lebenszyklus hinweg ein.

OpenCode Quickstart: Installieren, Konfigurieren und Nutzen des Terminal-basierten AI-Coding-Agenten

OpenCode ist ein Open-Source-AI-Coding-Agent, den Sie im Terminal (TUI + CLI) mit optionalen Desktop- und IDE-Oberflächen ausführen können. Dies ist der OpenCode Quickstart: Installation, Verifikation, Verbindung eines Modells/Anbieters und Ausführung realer Workflows (CLI + API).

Überwachung der LLM-Inferenz im Produktivumfeld (2026): Prometheus und Grafana für vLLM, TGI und llama.cpp

LLM-Inferenz sieht aus wie „nur eine weitere API" – bis die Latenzspitzen auftreten, Warteschlangen sich stauen und Ihre GPUs eine Speichernutzung von 95 % haben, ohne dass eine offensichtliche Erklärung dafür vorhanden ist.

OpenClaw Schnellstart: Installation mit Docker (Ollama GPU oder Claude + CPU)

OpenClaw ist ein selbst gehosteter KI-Assistent, der mit lokalen LLM-Runtimes wie Ollama oder mit cloud-basierten Modellen wie Claude Sonnet ausgeführt werden kann.

OpenClaw: Untersuchung eines selbst gehosteten KI-Assistenten als reales System

Die meisten lokalen KI-Setups beginnen auf die gleiche Weise: Ein Modell, eine Laufzeitumgebung und eine Chat-Schnittstelle.

Workflow-Anwendungen mit Temporal in Go implementieren: Ein umfassender Leitfaden

Temporal ist ein quelloffenes, enterprise-gradiges Workflow-Engine, das Entwicklern ermöglicht, widerstandsfähige, skalierbare und fehlertolerante Workflow-Anwendungen mit vertrauten Programmiersprachen wie Go zu erstellen.

Observabilität für LLM-Systeme: Metriken, Spuren, Logs und Testing in der Produktion

LLM-Systeme scheitern auf Weisen, die herkömmliche API-Überwachung nicht aufdecken kann – Warteschlangen füllen sich schweigend, die GPU-Speicherbelegung erreicht den Sättigungspunkt lange bevor der CPU beschäftigt aussieht und Latenz explodiert in der Batch-Schicht anstatt in der Anwendungsschicht. Dieser Leitfaden behandelt eine End-to-End- Überwachungsstrategie für LLM-Abduktion und LLM-Anwendungen: Was gemessen werden sollte, wie man es mit Prometheus, OpenTelemetry und Grafana instrumentiert und wie man die Telemetrie-Pipeline im großen Maßstab bereitstellt.

Observability in der Produktion: Monitoring, Metriken, Prometheus und Grafana – Leitfaden (2026)

Beobachtbarkeit ist die Grundlage zuverlässiger Produktionssysteme.

Ohne Metriken, Dashboards und Alarmierung driftet Kubernetes-Cluster, KI-Workloads schweigen beim Scheitern, und Latenzregressionen bleiben unbemerkt, bis Nutzer sich beschweren.

RAG-Tutorial: Architektur, Implementierung und Produktionsleitfaden

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.

LLM-Hosting 2026: Vergleich lokaler, selbstgehosteter und Cloud-Infrastrukturen

Strategic guide to hosting large language models locally with Ollama, llama.cpp, vLLM, or in the cloud. Compare tools, performance trade-offs, and cost considerations.

LLM-Leistung 2026: Benchmarks, Engpässe und Optimierung

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Selbstgehostete LLMs und AI-Souveränität

Das Selbst-Hosting von LLMs hält Daten, Modelle und Inferenzen unter Ihrer Kontrolle – ein praktischer Weg zur AI Sovereignty für Teams, Unternehmen und Nationen.

Vergleich der Leistung von LLMs auf Ollama mit einer GPU mit 16 GB VRAM

Die Ausführung großer Sprachmodelle lokal bietet Ihnen Privatsphäre, die Möglichkeit, offline zu arbeiten, und null API-Kosten.
Dieser Benchmark zeigt genau, was man von 14 beliebten
LLMs auf Ollama auf einem RTX 4080 erwarten kann.