Rost Glukhov | Persönliche Website und technischer Blog

TGI – Text Generation Inference – Installation, Konfiguration, Fehlerbehebung

Text Generation Inference (TGI) hat eine sehr spezifische Energie. Es ist nicht das neueste Kind auf der Inferenz-Straße, aber es ist dasjenige, das bereits gelernt hat, wie Produktion funktioniert –

LLM-Benchmarks mit 16 GB VRAM und llama.cpp (Geschwindigkeit und Kontext)

Hier vergleiche ich die Geschwindigkeit verschiedener LLMs, die auf einer GPU mit 16 GB VRAM laufen, und wähle das beste Modell für die Selbsthosting-Nutzung aus.

RTX 5090 in Australien: Preis, Verfügbarkeit und Realität im März 2026

Australien verfügt über RTX 5090-Lagerbestände. Kaum. Und wenn Sie eine finden, zahlen Sie einen Aufpreis, der sich von der Realität zu lösen scheint.

Remote-Zugriff auf Ollama über Tailscale oder WireGuard, ohne öffentliche Ports

Ollama ist am glücklichsten, wenn es wie ein lokaler Daemon behandelt wird: Die CLI und Ihre Apps kommunizieren mit einer Loopback-HTTP-API, und der Rest des Netzwerks erfährt nie von ihrer Existenz.

Strukturiertes Logging in Go mit slog für Observability und Alerting

Logs sind eine Debug-Schnittstelle, die Sie noch nutzen können, wenn das System brennt. Das Problem ist, dass reine Text-Logs schlecht altern: Sobald Sie Filterung, Aggregation und Alarme benötigen, beginnen Sie, Sätze zu parsen.

Ollama in Docker Compose mit GPU und persistenter Modell-Speicherung

Ollama funktioniert hervorragend auf Bare Metal. Es wird noch interessanter, wenn man es wie einen Service behandelt: ein stabiler Endpunkt, fixierte Versionen, persistente Speicherung und eine GPU, die entweder verfügbar ist oder eben nicht.

Ollama hinter einem Reverse-Proxy mit Caddy oder Nginx für HTTPS-Streaming

Das Betreiben von Ollama hinter einem Reverse-Proxy ist der einfachste Weg, HTTPS, optionale Zugriffskontrolle und ein vorhersagbares Streaming-Verhalten zu erhalten.

Text-Embeddings für RAG und Suche – Python, Ollama, OpenAI-kompatible APIs

Wenn Sie sich mit retrieval-augmented generation (RAG) beschäftigen, führt dieser Abschnitt Sie in einfachen Worten durch Text-Embeddings – was sie sind, wie sie in Suche und Abruf passen und wie man zwei gängige lokale Setups von Python aus mit Ollama oder einer OpenAI-kompatiblen HTTP-API aufruft (wie sie von vielen llama.cpp-basierten Servern bereitgestellt werden).

Netlify für Hugo und statische Websites: Preismodelle, Gratis-Tier und Alternativen

Netlify ist eine der entwicklerfreundlichsten Methoden, um Hugo-Websites und moderne Webanwendungen mit einem Workflow auf Produktionsniveau zu veröffentlichen: Vorschau-URLs für jede Pull-Request, atomare Bereitstellungen, ein globales CDN sowie optionale serverlose und Edge-Funktionen.

Apache Flink auf K8s und Kafka: PyFlink, Go, Betrieb und verwaltetes Preismodell

Apache Flink ist ein Framework für zustandsbehaftete Berechnungen über unendliche und endliche Datenströme.

Neo4j-Grafendatenbank für GraphRAG, Installation, Cypher, Vektoren, Operations

Neo4j ist das Mittel der Wahl, wenn die Beziehungen die eigentlichen Daten sind. Wenn Ihr Domänenmodell wie eine Whiteboard-Zeichnung mit Kreisen und Pfeilen aussieht, ist die Zwangsumsetzung in Tabellen schmerzhaft.

Vergleich von gehosteten E-Mail-Diensten für Custom Domains: Workspace, Microsoft 365, Zoho, Proton und WorkMail

E-Mail auf Ihrer eigenen Domain klingt nach einer DNS-Aufgabe für das Wochenende. In der Praxis handelt es sich dabei um ein kleines verteiltes System mit einer zwanzigjährigen Historie.

IndexNow erklärt – Suchmaschinen bei Veröffentlichung benachrichtigen

Statische Websites und Blogs ändern sich beim Deploy. Suchmaschinen, die IndexNow unterstützen, können über diese Änderungen informiert werden, ohne auf das nächste blinde Crawling warten zu müssen.

SGLang-Schnellstart: LLMs installieren, konfigurieren und über die OpenAI-API bereitstellen

SGLang ist ein leistungsfähiges Bereitstellungsframework für große Sprachmodelle und multimodale Modelle, das entwickelt wurde, um Inferenz mit geringer Latenz und hohem Durchsatz von einzelnen GPUs bis hin zu verteilten Clustern zu ermöglichen.

llama.swap Modellwechsler: Schnellstart für OpenAI-kompatible lokale LLMs

Bald jonglieren Sie mit vLLM, llama.cpp und mehr – jeder Stack auf einem eigenen Port. Alles nachgeschaltete System erwartet dennoch eine einzige /v1-Basis-URL; andernfalls sortieren Sie ständig Ports, Profile und Einmal-Skripte neu. llama-swap ist der /v1-Proxy vor diesen Stacks.

Apache Kafka Schnellstart – Installation von Kafka 4.2 mit CLI und lokalen Beispielen

Apache Kafka 4.2.0 ist die aktuell unterstützte Release-Linie und stellt die beste Basis für einen modernen Quickstart dar, da Kafka 4.x standardmäßig vollständig ohne ZooKeeper auskommt und auf KRaft aufbaut.

Abonnieren