Frontend per LLM

Non ce ne sono così tanti da scegliere, ma comunque...

Indice

Quando ho iniziato a sperimentare con gli LLM, le interfacce utente per loro erano in fase attiva di sviluppo e ora alcune di esse sono davvero buone.

!- Jan - interfaccia multiplatform per LLMs(jan-site_w678.jpg Jan - Frontend per LLMs - install)

Jan

Ha temi scuri, chiari e trasparenti.

!- Jan LLM frontend - finestra principale(jan-self_w678.jpg Jan - Frontend per LLMs - esempio di risposta a perché selfhost)

Può connettersi a diversi backend esistenti come Anthropic, Cohere, OpenAI, NvidiaNIM, MistralAI, ecc., e ospitare modelli autonomamente - vedere la sezione Cortex nell’immagine sottostante - che mostra Jan scaricato e ospitato localmente Llama3 8b q4 e Phi3 medium (q4).

!- Jan LLM frontend - opzioni di configurazione(jan-config_w678.jpg Jan LLM frontend - opzioni di configurazione)

Punti di forza (ciò che ho apprezzato):

  • Interfaccia intuitiva
  • La possibilità di sperimentare con la temperatura del modello, topp, frequenza e penalità di presenza e prompt del sistema.
  • Fornisce un server API

Punti di debolezza:

  • Per qualche motivo lento sul mio sistema operativo basato su Ubuntu. Su Windows ha funzionato bene.
  • Può connettersi a molti backend, ma tutti sono gestiti. Sarebbe stato bello poter usare l’opzione Ollama.
  • Non molte varianti dei modelli disponibili per l’hosting autonomo in Cortex. Non troppe opzioni di quantizzazione nemmeno.
  • Sì, Huggingface gguf è fantastico. Ma volevo
    • riutilizzare ciò che Ollama ha già scaricato e caricato in VRAM
    • non ospitare lo stesso modello ovunque

KoboldAI

KoboldAI

Uno molto prominente

Silly Tavern

Silly Tavern

Un altro molto versatile

LLM Studio

LLM Studio non è il mio UI preferito per gli LLM, ma ha un accesso migliore ai modelli Huggingface.

Ollama da riga di comando

Sì, è anche un’interfaccia utente, solo una da riga di comando.

Per eseguire il LLM llama3.1:

ollama run llama3.1

quando finito, invia un comando per uscire dalla riga di comando di Ollama:

/bye

cURL Ollama

Installa cUrl se non l’hai già fatto

sudo apt-get install curl

Per chiamare il llm mistral nemo q8 ospitato localmente su Ollama - crea un file locale con il prompt p.json:

{
  model: mistral-nemo:12b-instruct-2407-q8_0,
  prompt: Che cos'è il post-modernismo?,
  stream: false
}

e ora esegui nel terminale bash

curl -X POST http://localhost:11434/api/generate -d @p.json > p-result.json

il risultato sarà nel file p-result.json

se desideri solo stampare il risultato:

curl -X POST http://localhost:11434/api/generate -d @p.json

Anche:

Non ho testato questi, ma è una lista abbastanza completa di UI per LLM: