Frontends de LLM
No hay tantas opciones, pero aún así...
Cuando empecé a experimentar con LLMs, las interfaces de usuario para ellos estaban en desarrollo activo y ahora algunas de ellas son realmente buenas.
!- Jan - interfaz multiplataforma para LLMs(jan-site_w678.jpg Jan - Interfaz frontend para LLMs - instalación)
Jan
- Jan(https://jan.ai/) está disponible para Windows, Linux y Mac.
Tiene temas oscuros, claros y transparentes.
!- Jan LLM frontend - ventana principal(jan-self_w678.jpg Jan - Interfaz frontend para LLMs - ejemplo de respuesta a por qué autohospedar)
Puede conectarse a varios backends existentes como Anthropic, Cohere, OpenAI, NvidiaNIM, MistralAI, etc., y alojar modelos en su propio servidor - véase la sección Cortex en la captura de pantalla a continuación - mostrando Jan descargado y alojando localmente Llama3 8b q4 y Phi3 medium (q4).
!- Jan LLM frontend - opciones de configuración(jan-config_w678.jpg Jan LLM frontend - opciones de configuración)
Ventajas (lo que me gustó):
- Interfaz intuitiva
- Posibilidad de experimentar con la temperatura del modelo, topp, frecuencia y penalizaciones de presencia y prompts del sistema.
- Proporciona un servidor API
Desventajas:
- De alguna manera lento en mi sistema operativo basado en Ubuntu. En Windows funcionó bien.
- Puede conectarse a muchos backends, pero todos están gestionados. Sería útil tener la opción de Ollama.
- No hay muchas variantes de modelos disponibles para autohospedaje en Cortex. Tampoco hay muchas opciones de cuantización.
- Sí, Huggingface gguf es increíble. Pero quería
- reutilizar lo que ya descargó y cargó en VRAM de Ollama
- no alojar el mismo modelo en todos lados
KoboldAI
Uno muy destacado
Silly Tavern
Otro muy versátil
LLM Studio
LLM Studio no es mi interfaz favorita para LLMs, pero tiene mejor acceso a modelos de Huggingface.
Ollama desde la línea de comandos
Sí, también es una interfaz de usuario, solo una de línea de comandos.
Para ejecutar el LLM llama3.1:
ollama run llama3.1
cuando termines, envía un comando para salir de la línea de comandos de Ollama:
/bye
cURL Ollama
Instala cUrl si aún no lo has hecho
sudo apt-get install curl
Para llamar al mistral nemo q8 llm alojado en Ollama localmente - crea un archivo local con el prompt p.json
:
{
model: mistral-nemo:12b-instruct-2407-q8_0,
prompt: ¿Qué es el posmodernismo?,
stream: false
}
y ahora ejecuta en el terminal de bash
curl -X POST http://localhost:11434/api/generate -d @p.json > p-result.json
el resultado estará en el archivo p-result.json
si solo quieres imprimir el resultado:
curl -X POST http://localhost:11434/api/generate -d @p.json
También:
No probé estos, pero es una lista bastante completa de interfaces de usuario para LLMs:
- Streamlit
- Gradio
- Lobe Chat
- Text Generation WebUI
- Ollama WebUI
- Hugging Face Chat UI
- GPT-4All
- LocalGPT
- ChainFury
- Verba por Weaviate
- Chat UI Kit para React por ChatScope
- Reflex Chat
- Silly Tavern
- Amica
- Serge Chat
- LLM Multitool
- Sanctum AI
- KoboldAI
- AI Messenger
- Exui
- Spellbook Docker
- Lollms WebUI
- H2O GPT
Enlaces útiles
- Modelos de incrustación y reordenamiento de Qwen3 en Ollama: rendimiento de vanguardia
- Prueba: cómo Ollama está utilizando el rendimiento de los núcleos de CPU de Intel y núcleos eficientes
- Cómo Ollama maneja solicitudes paralelas
- Prueba de Deepseek-r1 en Ollama
- Instalar y configurar Ollama
- Comparación de capacidades de resumen de LLM
- Comparando la velocidad de diferentes LLMs
- Autohospedaje de Perplexica con Ollama
- Comparación de LLMs: Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 y Phi
- Guía rápida de Ollama
- Guía rápida de Markdown
- Proveedores de LLM en la nube