Frontend per LLM

Non ce ne sono così tanti da scegliere, ma comunque...

Indice

Quando ho iniziato a sperimentare con gli LLM, le interfacce utente per loro erano in fase attiva di sviluppo e ora alcune di esse sono davvero buone.

!- Jan - interfaccia multiplatform per LLMs(jan-site_w678.jpg Jan - Frontend per LLMs - install)

Jan

Jan(https://jan.ai/) è disponibile per Windows, Linux e Mac.

Ha temi scuri, chiari e trasparenti.

!- Jan LLM frontend - finestra principale(jan-self_w678.jpg Jan - Frontend per LLMs - esempio di risposta a perché selfhost)

Può connettersi a diversi backend esistenti come Anthropic, Cohere, OpenAI, NvidiaNIM, MistralAI, ecc., e ospitare modelli autonomamente - vedere la sezione Cortex nell’immagine sottostante - che mostra Jan scaricato e ospitato localmente Llama3 8b q4 e Phi3 medium (q4).

!- Jan LLM frontend - opzioni di configurazione(jan-config_w678.jpg Jan LLM frontend - opzioni di configurazione)

Punti di forza (ciò che ho apprezzato):

Interfaccia intuitiva
La possibilità di sperimentare con la temperatura del modello, topp, frequenza e penalità di presenza e prompt del sistema.
Fornisce un server API

Punti di debolezza:

Per qualche motivo lento sul mio sistema operativo basato su Ubuntu. Su Windows ha funzionato bene.
Può connettersi a molti backend, ma tutti sono gestiti. Sarebbe stato bello poter usare l’opzione Ollama.
Non molte varianti dei modelli disponibili per l’hosting autonomo in Cortex. Non troppe opzioni di quantizzazione nemmeno.
Sì, Huggingface gguf è fantastico. Ma volevo
- riutilizzare ciò che Ollama ha già scaricato e caricato in VRAM
- non ospitare lo stesso modello ovunque

KoboldAI

Uno molto prominente

Silly Tavern

Un altro molto versatile

LLM Studio

LLM Studio non è il mio UI preferito per gli LLM, ma ha un accesso migliore ai modelli Huggingface.

Ollama da riga di comando

Sì, è anche un’interfaccia utente, solo una da riga di comando.

Per eseguire il LLM llama3.1:

ollama run llama3.1

quando finito, invia un comando per uscire dalla riga di comando di Ollama:

/bye

cURL Ollama

Installa cUrl se non l’hai già fatto

sudo apt-get install curl

Per chiamare il llm mistral nemo q8 ospitato localmente su Ollama - crea un file locale con il prompt p.json:

{
  model: mistral-nemo:12b-instruct-2407-q8_0,
  prompt: Che cos'è il post-modernismo?,
  stream: false
}

e ora esegui nel terminale bash

curl -X POST http://localhost:11434/api/generate -d @p.json > p-result.json

il risultato sarà nel file p-result.json

se desideri solo stampare il risultato:

curl -X POST http://localhost:11434/api/generate -d @p.json

Anche:

Non ho testato questi, ma è una lista abbastanza completa di UI per LLM:

Jan