LLM Hosting

LocalAI QuickStart: OpenAI-kompatible LLMs lokal ausführen

LocalAI ist ein selbstgehosteter, lokal-first Inferenzserver, der sich wie eine Drop-in OpenAI API verhält, um KI-Arbeitslasten auf Ihrer eigenen Hardware (Laptop, Workstation oder lokaler Server) auszuführen.

llama.cpp Schnellstart mit CLI und Server

Ich komme immer wieder zu llama.cpp für lokale Inferenz – es gibt Ihnen die Kontrolle, die Ollama und andere abstrahieren, und es funktioniert einfach. Es ist leicht, GGUF-Modelle interaktiv mit llama-cli zu nutzen oder eine OpenAI-kompatible HTTP-API mit llama-server bereitzustellen.

Selbstgehostete LLMs ermöglichen die Kontrolle über Daten, Modelle und Inferenz – ein praktischer Weg zur AI-Souveränität für Teams, Unternehmen und Nationen.

Open WebUI: Selbstgehostete LLM-Schnittstelle

Open WebUI ist eine leistungsstarke, erweiterbare und umfangreiche selbstgehostete Web-Schnittstelle zur Interaktion mit großen Sprachmodellen.

vLLM ist ein leistungsstarkes, speichereffizientes Inferenz- und Serving-Engine für Large Language Models (LLMs), entwickelt vom Sky Computing Lab der UC Berkeley.

Die Wahl des richtigen LLM für Cognee: Lokale Ollama-Installation

Die Wahl des Besten LLM für Cognee erfordert das Ausbalancieren von Graph-Qualität, Halluzinationsraten und Hardware-Beschränkungen.
Cognee leistet sich besonders gut mit größeren, niedrig-halluzinierenden Modellen (32B+) über Ollama, doch mittelgroße Optionen sind für leichtere Systeme geeignet.

Ollama vs. vLLM vs. LM Studio: Der beste Weg, LLMs 2026 lokal zu betreiben?

Das lokale Ausführen von LLMs ist jetzt für Entwickler, Startups und sogar Enterprise-Teams praktisch geworden.
Aber die Wahl des richtigen Tools — Ollama, vLLM, LM Studio, LocalAI oder andere — hängt von Ihren Zielen ab:

Docker Model Runner: Kontextgrößen-Konfigurationsleitfaden

Einrichten von Kontextgrößen im Docker Model Runner ist komplexer, als es sein sollte.

Hinzufügen von NVIDIA-GPU-Unterstützung zum Docker-Modell-Runner

Docker Model Runner ist das offizielle Tool von Docker, um KI-Modelle lokal zu verwenden, aber GPU-Beschleunigung mit NVidia in Docker Model Runner erfordert eine spezifische Konfiguration.

Docker Model Runner Cheatsheet: Befehle & Beispiele

Docker Model Runner (DMR) ist Docks offizielle Lösung zur lokalen Ausführung von KI-Modellen, eingeführt im April 2025. Dieses Cheat Sheet bietet eine schnelle Referenz für alle wesentlichen Befehle, Konfigurationen und Best Practices.

Docker Model Runner vs. Ollama (2026): Welches ist besser für lokale LLMs?

Große Sprachmodelle (LLMs) lokal ausführen wird zunehmend beliebt, um den Schutz der Privatsphäre, den Kostenkontroll und die Offline-Fähigkeiten zu gewährleisten. Der Markt hat sich im April 2025 deutlich verändert, als Docker Docker Model Runner (DMR) eingeführt hat, seine offizielle Lösung zur Bereitstellung von KI-Modellen.

Go-Client für Ollama: SDK-Vergleich und Qwen3/GPT-OSS-Beispiele

Dieser Leitfaden bietet einen umfassenden Überblick über die verfügbaren Go SDKs für Ollama und vergleicht ihre Funktionsumfänge.

Ollama mit Python integrieren: REST-API- und Python-Client-Beispiele

In diesem Beitrag untersuchen wir zwei Möglichkeiten, Ihre Python-Anwendung mit Ollama zu verbinden: 1. Über die HTTP REST API; 2. Über die offizielle Ollama Python-Bibliothek.

Ollama-Enshittification – die frühen Anzeichen

Ollama hat sich schnell zu einem der beliebtesten Tools zur lokalen Ausführung von LLMs entwickelt. Seine einfache CLI und die nahtlose Modellverwaltung haben es zu einer bevorzugten Option für Entwickler gemacht, die mit AI-Modellen außerhalb der Cloud arbeiten möchten.

Chat-Oberflächen für lokale Ollama-Instanzen

Locally gehostete Ollama ermöglicht es, große Sprachmodelle auf Ihrem eigenen Gerät auszuführen, aber die Verwendung über die Befehlszeile ist nicht benutzerfreundlich. Hier sind mehrere Open-Source-Projekte, die ChatGPT-ähnliche Schnittstellen bereitstellen, die mit einer lokalen Ollama verbunden sind.

Vergleich der Qualität der Hugo-Seitentranslation – LLMs auf Ollama

In diesem Test vergleiche ich, wie verschiedene LLMs, die auf Ollama gehostet werden, Hugo- Seiten von englisch auf deutsch übersetzen.