Frontend per LLM
Non ce ne sono così tanti da scegliere, ma comunque...
Quando ho iniziato a sperimentare con gli LLM, le interfacce utente per loro erano in fase attiva di sviluppo e ora alcune di esse sono davvero buone.
!- Jan - interfaccia multiplatform per LLMs(jan-site_w678.jpg Jan - Frontend per LLMs - install)
Jan
- Jan(https://jan.ai/) è disponibile per Windows, Linux e Mac.
Ha temi scuri, chiari e trasparenti.
!- Jan LLM frontend - finestra principale(jan-self_w678.jpg Jan - Frontend per LLMs - esempio di risposta a perché selfhost)
Può connettersi a diversi backend esistenti come Anthropic, Cohere, OpenAI, NvidiaNIM, MistralAI, ecc., e ospitare modelli autonomamente - vedere la sezione Cortex nell’immagine sottostante - che mostra Jan scaricato e ospitato localmente Llama3 8b q4 e Phi3 medium (q4).
!- Jan LLM frontend - opzioni di configurazione(jan-config_w678.jpg Jan LLM frontend - opzioni di configurazione)
Punti di forza (ciò che ho apprezzato):
- Interfaccia intuitiva
- La possibilità di sperimentare con la temperatura del modello, topp, frequenza e penalità di presenza e prompt del sistema.
- Fornisce un server API
Punti di debolezza:
- Per qualche motivo lento sul mio sistema operativo basato su Ubuntu. Su Windows ha funzionato bene.
- Può connettersi a molti backend, ma tutti sono gestiti. Sarebbe stato bello poter usare l’opzione Ollama.
- Non molte varianti dei modelli disponibili per l’hosting autonomo in Cortex. Non troppe opzioni di quantizzazione nemmeno.
- Sì, Huggingface gguf è fantastico. Ma volevo
- riutilizzare ciò che Ollama ha già scaricato e caricato in VRAM
- non ospitare lo stesso modello ovunque
KoboldAI
Uno molto prominente
Silly Tavern
Un altro molto versatile
LLM Studio
LLM Studio non è il mio UI preferito per gli LLM, ma ha un accesso migliore ai modelli Huggingface.
Ollama da riga di comando
Sì, è anche un’interfaccia utente, solo una da riga di comando.
Per eseguire il LLM llama3.1:
ollama run llama3.1
quando finito, invia un comando per uscire dalla riga di comando di Ollama:
/bye
cURL Ollama
Installa cUrl se non l’hai già fatto
sudo apt-get install curl
Per chiamare il llm mistral nemo q8 ospitato localmente su Ollama - crea un file locale con il prompt p.json
:
{
model: mistral-nemo:12b-instruct-2407-q8_0,
prompt: Che cos'è il post-modernismo?,
stream: false
}
e ora esegui nel terminale bash
curl -X POST http://localhost:11434/api/generate -d @p.json > p-result.json
il risultato sarà nel file p-result.json
se desideri solo stampare il risultato:
curl -X POST http://localhost:11434/api/generate -d @p.json
Anche:
Non ho testato questi, ma è una lista abbastanza completa di UI per LLM:
- Streamlit
- Gradio
- Lobe Chat
- Text Generation WebUI
- Ollama WebUI
- Hugging Face Chat UI
- GPT-4All
- LocalGPT
- ChainFury
- Verba by Weaviate
- Chat UI Kit for React by ChatScope
- Reflex Chat
- Silly Tavern
- Amica
- Serge Chat
- LLM Multitool
- Sanctum AI
- KoboldAI
- AI Messenger
- Exui
- Spellbook Docker
- Lollms WebUI
- H2O GPT
Link utili
- Qwen3 Embedding & Reranker Models on Ollama: State-of-the-Art Performance
- Test: How Ollama is using Intel CPU Performance and Efficient Cores
- How Ollama Handles Parallel Requests
- Testing Deepseek-r1 on Ollama
- Install and configure Ollama
- Comparing LLM Summarising Abilities
- Compating different LLMs speed
- Self-hosting Perplexica - with Ollama
- LLMs comparison: Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 and Phi
- Ollama cheatsheet
- Markdown Cheatsheet
- Cloud LLM Providers