Hardware

Cómo Ollama maneja las solicitudes en paralelo

Cómo Ollama maneja las solicitudes en paralelo

Configurando ollama para la ejecución de solicitudes en paralelo.

Cuando el servidor Ollama recibe dos solicitudes al mismo tiempo, su comportamiento depende de su configuración y de los recursos del sistema disponibles.

Prueba de velocidad de modelos de lenguaje grandes

Prueba de velocidad de modelos de lenguaje grandes

Probemos la velocidad de los LLM en GPU frente a CPU

Comparando la velocidad de predicción de varias versiones de LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) en CPU y GPU.