Rendimiento de LLM y canales PCIe: Consideraciones clave

¿Piensa en instalar una segunda GPU para LLMs?

Índice

Cómo afectan los canales PCIe al rendimiento de los LLM? Dependiendo de la tarea. Para el entrenamiento y la inferencia con múltiples GPUs, la caída de rendimiento es significativa.

Para la inferencia con una sola GPU, cuando el LLM ya está en la VRAM, casi no hay diferencia.

“Placa base con muchos canales PCIe” Esta imagen se genera automáticamente con Flux - LLM de texto a imagen .

  • Carga del modelo: El número de canales PCIe afecta principalmente la velocidad a la que se cargan los pesos del modelo desde la RAM del sistema hacia la VRAM de la GPU. Más canales (por ejemplo, x16) permiten transferencias más rápidas, reduciendo los tiempos de carga iniciales. Una vez que el modelo está cargado en la memoria de la GPU, la velocidad de inferencia no se ve afectada por el ancho de banda de PCIe, a menos que el modelo o los datos deban intercambiarse con frecuencia entre la VRAM y la CPU.
  • Velocidad de inferencia: Para tareas típicas de inferencia de LLM, el número de canales PCIe tiene un efecto mínimo después de que el modelo se haya cargado, ya que las operaciones se realizan dentro de la GPU. Solo cuando los resultados o los datos intermedios deben transferirse con frecuencia de vuelta a la CPU o entre GPUs, el ancho de banda de PCIe se convierte en un cuello de botella.
  • Entrenamiento y configuraciones con múltiples GPUs: Para el entrenamiento, especialmente con múltiples GPUs, el ancho de banda de PCIe se vuelve más crítico. Los números de canales más bajos (por ejemplo, x4) pueden ralentizar significativamente el entrenamiento debido a la mayor comunicación inter-GPU y al mezclado de datos. Para obtener los mejores resultados, se recomienda al menos x8 canales por GPU en sistemas con múltiples GPUs.

Comparación de rendimiento: canales PCIe e interconexiones de GPU

Configuración Impacto en la inferencia de LLM Impacto en el entrenamiento de LLM Notas importantes
PCIe x16 por GPU Tiempos de carga más rápidos, óptimo para modelos grandes Mejor para el entrenamiento con múltiples GPUs Estándar para estaciones de trabajo y servidores de alto rendimiento
PCIe x8 por GPU Carga ligeramente más lenta, caída insignificante en la inferencia Aceptable para múltiples GPUs Pequeña pérdida de rendimiento, especialmente en configuraciones de 2-4 GPUs
PCIe x4 por GPU Carga notablemente más lenta, impacto mínimo en la inferencia Ralentización significativa en el entrenamiento No se recomienda para el entrenamiento, pero funciona para la inferencia con una sola GPU
SXM/NVLink (por ejemplo, H100) Comunicación inter-GPU mucho más rápida, hasta 2,6 veces más rápida en la inferencia que PCIe Superior para el entrenamiento a gran escala Ideal para LLM empresariales, permite la unificación de GPUs
  • SXM vs PCIe: El factor de forma SXM de NVIDIA (con NVLink) ofrece un ancho de banda inter-GPU significativamente mayor en comparación con PCIe. Por ejemplo, las GPUs H100 SXM5 ofrecen hasta 2,6 veces más rápido en la inferencia de LLM que las H100 PCIe, especialmente en configuraciones con múltiples GPUs. Esto es crucial para modelos grandes y cargas de trabajo distribuidas.
  • Generación de PCIe: Actualizar de PCIe 3.0 a 4.0 o 5.0 proporciona más ancho de banda, pero para la mayoría de los casos de uso a pequeña escala o con una sola GPU en la inferencia de LLM, el beneficio práctico es mínimo. Para clusters grandes o entrenamiento con múltiples GPUs intensivo, las generaciones más altas de PCIe ayudan con la paralelización y la transferencia de datos.

Recomendaciones prácticas

  • Inferencia de LLM con una sola GPU: El número de canales PCIe no es un cuello de botella importante después de cargar el modelo. Los canales x4 suelen ser suficientes, aunque los canales x8 o x16 reducirán los tiempos de carga.
  • Inferencia/entrenamiento con múltiples GPUs: Prefiere x8 o x16 canales por GPU. Los números de canales más bajos pueden limitar la comunicación inter-GPU, ralentizando tanto el entrenamiento como la inferencia a gran escala.
  • Escala empresarial/investigación: Para los modelos más grandes y el mejor rendimiento, los sistemas basados en SXM/NVLink (por ejemplo, DGX, HGX) son superiores, permitiendo una transferencia de datos mucho más rápida entre GPUs y un mayor throughput.

“Funcionar con GPUs en 4 canales es aceptable, especialmente si solo tienes 2 GPUs. Para una configuración de 4 GPUs, preferiría 8 canales por GPU, pero ejecutarlas en 4 canales probablemente solo reducirá el rendimiento en alrededor del 5-10% si paralelizas en todas las 4 GPUs.”

Resumen

  • El número de canales PCIe afecta principalmente la carga del modelo y la comunicación inter-GPU, no la velocidad de inferencia después de que el modelo se haya cargado.
  • Para la mayoría de los usuarios que ejecutan inferencia de LLM en una sola GPU, el número de canales no es una preocupación significativa.
  • Para el entrenamiento o cargas de trabajo con múltiples GPUs, más canales (x8/x16) y conexiones de mayor ancho de banda (NVLink/SXM) ofrecen ganancias de rendimiento sustanciales.

Enlaces útiles