Cómo configurar NVLink en VPS

NVLink de NVIDIA es una tecnología de interconexión de alta velocidad diseñada para permitir una comunicación rápida entre las GPU y las CPU de un sistema, lo que permite velocidades de transferencia de datos muy superiores a las de las conexiones PCIe tradicionales. Resulta especialmente beneficiosa en tareas de computación de alto rendimiento (HPC), investigación de IA y aprendizaje profundo, en las que es necesario procesar rápidamente grandes volúmenes de datos entre las GPU. La configuración de NVLink puede mejorar significativamente el rendimiento de las cargas de trabajo que requieren configuraciones multi-GPU. Esta guía te guiará por los pasos para configurar NVLink en tu máquina.

¿Qué es NVLink?

NVLink es una tecnología de interconexión propiedad de NVIDIA que permite la transferencia de datos entre GPUs o entre GPUs y CPUs a grandes anchos de banda. Permite una comunicación más rápida que las conexiones PCI Express (PCIe) estándar mediante el uso de múltiples carriles de datos. Esta comunicación directa minimiza la necesidad de que los datos pasen por la CPU, lo que puede reducir los cuellos de botella y mejorar el rendimiento general del sistema.

Principales ventajas de NVLink:

Comunicación más rápida: NVLink proporciona hasta 25 GB/s de ancho de banda bidireccional por enlace, significativamente más rápido que PCIe 3.0.
Escalabilidad: NVLink permite el escalado a través de múltiples GPUs para cálculos complejos como el entrenamiento de modelos de IA o las simulaciones científicas.
Acceso unificado a la memoria: NVLink facilita el acceso compartido a la memoria entre las GPU, lo que les permite utilizar la memoria de las demás y trabajar juntas en grandes conjuntos de datos.

Requisitos previos para la configuración de NVLink

Antes de configurar NVLink, asegúrate de tener lo siguiente:

GPUs compatibles: NVLink sólo está disponible en determinadas GPUs NVIDIA, como las NVIDIA Tesla, Quadro y GeForce RTX (2080, 2080 Ti, 3080, 3090, etc.). Comprueba que tus GPUs soportan NVLink consultando la documentación de NVIDIA para el modelo específico que estés utilizando.
Puente NVLink: Se necesita un puente NVLink para conectar físicamente las GPU. El número de puentes que necesites dependerá del número de GPUs y de la configuración que desees. Algunas GPU pueden utilizar varios NVLinks para aumentar el ancho de banda.
Sistema habilitado para NVLink: Asegúrate de que la placa base y la BIOS de tu sistema admiten NVLink. El sistema debe tener suficientes ranuras PCIe y el espacio adecuado para que quepan físicamente las GPU y el puente NVLink.
Controladores NVIDIA y CUDA: Necesitarás instalar los últimos controladores NVIDIA y el kit de herramientas CUDA para aprovechar al máximo NVLink. Estos son esenciales para permitir la comunicación entre las GPUs.

Guía paso a paso para configurar NVLink

Paso 1: Instalar las GPU

Antes de configurar NVLink, instala las GPUs NVIDIA compatibles en las ranuras PCIe del sistema. Asegúrate de que las GPUs están bien asentadas en sus respectivas ranuras. Si tu placa base admite varias GPU, ten en cuenta el espacio entre ranuras, ya que debe acomodar el puente NVLink.

Apaga la máquina y desenchúfala.
Abre la carcasa del sistema.
Inserta las GPU en las ranuras PCIe y fíjalas en su sitio.
Conecta los cables de alimentación necesarios de la fuente de alimentación (PSU) a las GPU.
Cierre la caja del sistema y vuelva a encenderlo.

Paso 2: Instale el puente NVLink

Una vez instaladas las GPU, puede conectarlas utilizando el puente NVLink. Sigue estos pasos:

Identifique los conectores NVLink en la parte superior de las GPU. Estos conectores están diseñados específicamente para el puente NVLink.
Alinea el puente NVLink con los conectores y presiónalo con cuidado hasta que encaje en su sitio. Asegúrate de que el puente esté firmemente asentado en ambas GPU.
Si tu configuración utiliza varios puentes NVLink (para algunas GPU con dos conectores), repite este proceso para cada puente.

Paso 3: Instale los controladores NVIDIA

Para activar NVLink, necesitas tener instalados los últimos controladores NVIDIA en tu sistema. Sigue estos pasos para instalar los controladores:

Descarga los últimos controladores NVIDIA: Visita la página de descargas de controladores de NVIDIA, selecciona el modelo de GPU y descarga los controladores adecuados para tu sistema operativo.
Instala los controladores: Para Linux:
sudo apt-get update sudo apt-get install nvidia-driver-<version>
Para Windows, ejecute el instalador del controlador descargado y siga las instrucciones que aparecen en pantalla.
Reinicie el sistema: Después de instalar los controladores, reinicie el sistema para asegurarse de que los cambios surtan efecto.

Paso 4: Instalar CUDA Toolkit

NVLink se utiliza a menudo en combinación con CUDA, especialmente en tareas de aprendizaje profundo y HPC. Para aprovechar al máximo NVLink, necesitas tener instalado CUDA Toolkit en tu sistema.

Descarga CUDA Toolkit: Visita la página de descarga de CUDA Toolkit y descarga la versión adecuada para tu sistema operativo.
Instala CUDA: Para Linux:
sudo apt-get install cuda
Para Windows, ejecute el instalador de CUDA y siga las instrucciones.
Verifique la instalación de CUDA: Después de la instalación, verifique que CUDA está correctamente instalado ejecutando el siguiente comando:
nvcc --version
Esto debería devolver la versión de CUDA instalada en su sistema.

Paso 5: Activar NVLink

Ahora que sus GPUs están instaladas, y los drivers y CUDA están configurados, puede habilitar NVLink.

Compruebe la configuración de la GPU: Comprueba que las GPUs están instaladas y son reconocidas por el sistema utilizando el siguiente comando (Linux):
nvidia-smi
Esto debería listar todas las GPUs instaladas en tu sistema y mostrar sus respectivos estados PCIe y NVLink.
Habilitar NVLink con nvidia-smi: La herramienta nvidia-smi se utiliza para habilitar y monitorizar NVLink. Para comprobar si NVLink está habilitado, ejecute:
nvidia-smi topo -m
Si NVLink está correctamente configurado, la salida mostrará enlaces entre las GPUs, indicando qué GPUs están conectadas a través de NVLink. Busca la etiqueta “NVLink” entre los pares de GPU.
Pruebas de NVLink: Puedes ejecutar pruebas o benchmarks para medir el rendimiento de NVLink. Herramientas como cuBLAS o NCCL (NVIDIA Collective Communications Library) pueden utilizarse para evaluar la velocidad de transferencia de datos entre las GPU a través de NVLink.

Paso 6: Configurar las aplicaciones para utilizar NVLink

Para que tus aplicaciones aprovechen las ventajas de NVLink, debes configurarlas para que utilicen la interconexión de gran ancho de banda entre GPUs. Muchos marcos de aprendizaje profundo como TensorFlow, PyTorch y MXNet detectan automáticamente NVLink y lo utilizan para operaciones multi-GPU.

Por ejemplo, en TensorFlow, puedes comprobar las GPUs disponibles y su conectividad NVLink utilizando:

Frameworks como NCCL (NVIDIA Collective Communications Library) están optimizados para NVLink y se utilizan para transferencias de datos en entornos multi-GPU.

Paso 7: Monitorizar el estado de NVLink

Una vez configurado NVLink, es esencial monitorizar su estado para asegurarse de que funciona correctamente. La herramienta nvidia-smi proporciona una monitorización completa del tráfico NVLink, la utilización del ancho de banda y el rendimiento de la GPU. Puedes utilizarla:

Este comando muestra estadísticas detalladas sobre la conexión NVLink, incluyendo el rendimiento y los errores encontrados durante las transferencias de datos.

Conclusión

Configurar NVLink en una máquina puede mejorar significativamente el rendimiento de las configuraciones multi-GPU, especialmente para las cargas de trabajo que implican la transferencia de datos a alta velocidad entre GPUs, como el aprendizaje profundo, el entrenamiento de IA y las tareas HPC. Siguiendo los pasos descritos en esta guía, puedes instalar y configurar NVLink para obtener un rendimiento óptimo en tu sistema. Asegúrate de instalar correctamente tus GPU, conectarlas con el puente NVLink adecuado e instalar los controladores y el kit de herramientas CUDA más recientes para que NVLink sea totalmente compatible. Por último, supervisa el rendimiento y el estado de NVLink para asegurarte de que funciona según lo previsto, lo que te permitirá aprovechar al máximo sus funciones de interconexión de alta velocidad.