Jak skonfigurować NVLink na serwerze VPS

NVIDIA NVLink to technologia szybkich połączeń zaprojektowana w celu umożliwienia szybkiej komunikacji między układami GPU i CPU w systemie, pozwalając na znacznie wyższe prędkości transferu danych niż tradycyjne połączenia PCIe. Jest to szczególnie korzystne w obliczeniach o wysokiej wydajności (HPC), badaniach nad sztuczną inteligencją i zadaniach głębokiego uczenia, gdzie duże ilości danych muszą być szybko przetwarzane między układami GPU. Konfiguracja NVLink może znacznie zwiększyć wydajność w przypadku obciążeń wymagających konfiguracji z wieloma GPU. Niniejszy przewodnik przeprowadzi Cię przez kroki konfiguracji NVLink na Twoim komputerze.

Co to jest NVLink?

NVLink to opracowana przez firmę NVIDIA technologia połączeń, która umożliwia przesyłanie danych między układami GPU lub między układami GPU a procesorami CPU z wysoką przepustowością. Umożliwia ona szybszą komunikację niż standardowe połączenia PCI Express (PCIe) dzięki wykorzystaniu wielu pasów danych. Ta bezpośrednia komunikacja minimalizuje potrzebę przechodzenia danych przez CPU, co może zredukować wąskie gardła i poprawić ogólną wydajność systemu.

Kluczowe zalety NVLink:

Szybsza komunikacja: NVLink zapewnia do 25 GB/s dwukierunkowej przepustowości na łącze, znacznie szybciej niż PCIe 3.0.
Skalowalność: NVLink umożliwia skalowanie na wielu procesorach graficznych w przypadku złożonych obliczeń, takich jak szkolenie modeli sztucznej inteligencji lub symulacje naukowe.
Zunifikowany dostęp do pamięci: NVLink ułatwia współdzielony dostęp do pamięci pomiędzy układami GPU, umożliwiając im wzajemne korzystanie z pamięci i wspólną pracę nad dużymi zestawami danych.

Wymagania wstępne dla konfiguracji NVLink

Przed skonfigurowaniem NVLink należy upewnić się, że dostępne są następujące elementy:

Obsługiwane układy GPU: NVLink jest dostępny tylko dla niektórych układów GPU NVIDIA, takich jak NVIDIA Tesla, Quadro i GeForce RTX (2080, 2080 Ti, 3080, 3090 itp.). Sprawdź, czy Twoje układy GPU obsługują NVLink, sprawdzając dokumentację NVIDIA dla konkretnego modelu, którego używasz.
Mostek NVLink: Mostek NVLink jest wymagany do fizycznego połączenia układów GPU. Liczba potrzebnych mostków zależy od liczby układów GPU i wybranej konfiguracji. Niektóre układy GPU mogą korzystać z wielu mostków NVLink w celu uzyskania wyższej przepustowości.
System z włączoną obsługą NVLink: Upewnij się, że płyta główna systemu i BIOS obsługują NVLink. System musi mieć wystarczającą liczbę slotów PCIe i odpowiednie odstępy, aby fizycznie zmieścić układy GPU i mostek NVLink.
Sterowniki NVIDIA i CUDA: Aby w pełni wykorzystać NVLink, konieczne będzie zainstalowanie najnowszych sterowników NVIDIA i zestawu narzędzi CUDA. Są one niezbędne do umożliwienia komunikacji między układami GPU.

Przewodnik krok po kroku dotyczący konfiguracji NVLink

Krok 1: Zainstaluj procesory graficzne

Przed konfiguracją NVLink zainstaluj obsługiwane układy GPU NVIDIA w gniazdach PCIe systemu. Upewnij się, że układy GPU są bezpiecznie osadzone w odpowiednich gniazdach. Jeśli płyta główna obsługuje wiele układów GPU, należy pamiętać o odstępach między gniazdami, ponieważ muszą one pomieścić mostek NVLink.

Wyłącz komputer i odłącz go od zasilania.
Otwórz obudowę systemu.
Włóż procesory graficzne do gniazd PCIe i zabezpiecz je na miejscu.
Podłącz wszelkie niezbędne kable zasilające z zasilacza (PSU) do układów GPU.
Zamknij obudowę systemu i włącz go ponownie.

Krok 2: Instalacja mostka NVLink

Po zainstalowaniu procesorów graficznych można je podłączyć za pomocą mostka NVLink. Wykonaj następujące kroki:

Zidentyfikuj złącza NVLink w górnej części układów GPU. Złącza te zostały zaprojektowane specjalnie dla mostka NVLink.
Dopasuj mostek NVLink do złączy i ostrożnie wciśnij go na miejsce. Upewnij się, że mostek jest dobrze osadzony na obu procesorach graficznych.
Jeśli konfiguracja wykorzystuje kilka mostków NVLink (dla niektórych układów GPU z dwoma złączami), powtórz ten proces dla każdego mostka.

Krok 3: Instalacja sterowników NVIDIA

Aby włączyć NVLink, w systemie muszą być zainstalowane najnowsze sterowniki NVIDIA. Wykonaj poniższe kroki, aby zainstalować sterowniki:

Pobierz najnowsze sterowniki NVIDIA: Odwiedź stronę pobierania sterowników NVIDIA, wybierz swój model GPU i pobierz odpowiednie sterowniki dla swojego systemu operacyjnego.
Zainstaluj sterowniki: Dla systemu Linux:
sudo apt-get update sudo apt-get install nvidia-driver-<version>
W przypadku systemu Windows uruchom pobrany instalator sterownika i postępuj zgodnie z instrukcjami wyświetlanymi na ekranie.
Uruchom ponownie system: Po zainstalowaniu sterowników należy ponownie uruchomić system, aby upewnić się, że zmiany zaczną obowiązywać.

Krok 4: Zainstaluj CUDA Toolkit

NVLink jest często używany w połączeniu z CUDA, szczególnie w zadaniach głębokiego uczenia i HPC. Aby w pełni wykorzystać NVLink, w systemie musi być zainstalowany CUDA Toolkit.

Pobierz CUDA Toolkit: Odwiedź stronę pobierania CUDA Toolkit i pobierz odpowiednią wersję dla swojego systemu operacyjnego.
Zainstaluj CUDA: Dla systemu Linux:
sudo apt-get install cuda
W przypadku systemu Windows uruchom instalator CUDA i postępuj zgodnie z instrukcjami.
Weryfikacja instalacji CUDA: Po instalacji sprawdź, czy CUDA jest poprawnie zainstalowana, uruchamiając następujące polecenie:
nvcc --version
Powinno to zwrócić wersję CUDA zainstalowaną w systemie.

Krok 5: Włącz NVLink

Teraz, gdy układy GPU są zainstalowane, a sterowniki i CUDA są skonfigurowane, możesz włączyć NVLink.

Sprawdź konfigurację GPU: Sprawdź, czy procesory graficzne są zainstalowane i rozpoznawane przez system za pomocą następującego polecenia (Linux):
nvidia-smi
Powinno to wyświetlić listę wszystkich procesorów graficznych zainstalowanych w systemie i pokazać ich status PCIe i NVLink.
Włącz NVLink za pomocą nvidia-smi: Narzędzie nvidia-smi służy do włączania i monitorowania NVLink. Aby sprawdzić, czy NVLink jest włączony, uruchom:
nvidia-smi topo -m
Jeśli NVLink jest poprawnie skonfigurowany, na wyjściu zostaną wyświetlone łącza między układami GPU, wskazujące, które układy GPU są połączone przez NVLink. Szukaj etykiety “NVLink” pomiędzy parami GPU.
Test NVLink: Możesz uruchomić testy lub testy porównawcze, aby zmierzyć wydajność NVLink. Narzędzia takie jak cuBLAS lub NCCL (NVIDIA Collective Communications Library) mogą być wykorzystywane do testowania szybkości transferu danych pomiędzy układami GPU za pośrednictwem NVLink.

Krok 6: Konfiguracja aplikacji do korzystania z NVLink

Aby aplikacje mogły korzystać z NVLink, należy skonfigurować je tak, by wykorzystywały interkonekt o wysokiej przepustowości pomiędzy układami GPU. Wiele frameworków głębokiego uczenia, takich jak TensorFlow, PyTorch i MXNet, automatycznie wykrywa NVLink i wykorzystuje go do operacji na wielu procesorach graficznych.

Na przykład w TensorFlow można sprawdzić dostępne układy GPU i ich łączność NVLink za pomocą:

Struktury takie jak NCCL (NVIDIA Collective Communications Library) są zoptymalizowane pod kątem NVLink i są wykorzystywane do przesyłania danych w środowiskach z wieloma procesorami graficznymi.

Krok 7: Monitorowanie stanu NVLink

Po skonfigurowaniu protokołu NVLink konieczne jest monitorowanie jego stanu, aby upewnić się, że działa on prawidłowo. Narzędzie nvidia-smi zapewnia kompleksowe monitorowanie ruchu NVLink, wykorzystania przepustowości i wydajności GPU. Możesz użyć:

To polecenie wyświetla szczegółowe statystyki dotyczące połączenia NVLink, w tym przepustowość i wszelkie błędy napotkane podczas przesyłania danych.

Wnioski

Konfiguracja NVLink na maszynie może znacznie poprawić wydajność konfiguracji z wieloma GPU, szczególnie w przypadku obciążeń wymagających szybkiego transferu danych między układami GPU, takich jak głębokie uczenie, szkolenie AI i zadania HPC. Postępując zgodnie z krokami opisanymi w tym przewodniku, można zainstalować i skonfigurować NVLink w celu uzyskania optymalnej wydajności systemu. Upewnij się, że prawidłowo zainstalowałeś swoje układy GPU, połączyłeś je z odpowiednim mostkiem NVLink i zainstalowałeś najnowsze sterowniki i zestaw narzędzi CUDA dla pełnej obsługi NVLink. Wreszcie, monitoruj wydajność i stan NVLink, aby upewnić się, że działa zgodnie z przeznaczeniem, umożliwiając pełne wykorzystanie jego możliwości szybkiego połączenia.