Chiny omijają amerykańskie bany. Superkomputer LineShine to procesorowy potwór z 2,4 mln rdzeni od Huawei

Agnieszka Serafinowicz

Dodane: 2 miesiące temu

Amerykańskie sankcje technologiczne miały rzucić chiński sektor sztucznej inteligencji na kolana poprzez całkowite odcięcie tamtejszych instytutów od nowoczesnych akceleratorów graficznych (GPU).

Chińskie Narodowe Centrum Superkomputerowe (NSCC) w Shenzhen udowodniło jednak, że potrafi ominąć te ograniczenia za pomocą czystej inżynierii. Uruchomiono superkomputer klasy eksaskalowej o nazwie LineShine. Maszyna osiąga wydajność rzędu 1,54 eksaflopsa w zadaniach AI, nie posiadając na pokładzie ani jednej karty graficznej. Cała konstrukcja bazuje wyłącznie na autorskich procesorach centralnych (CPU).

Architektura procesora LX2, czyli CPU do zadań GPU

Sercem superkomputera są autorskie procesory LineShine LX2. Choć oficjalne dokumenty nie wskazują bezpośrednio projektanta, niezależni analitycy (m.in. z Jon Peddie Research) jednoznacznie identyfikują architekturę jako projekt koncernu Huawei.

Układ LX2 został od podstaw zoptymalizowany pod kątem gęstych obliczeń macierzowych i sieci neuronowych, mimo że strukturalnie pozostaje procesorem centralnym. Cały superkomputer składa się z 20 480 węzłów obliczeniowych. Każdy węzeł wyposażono w dwa procesory LX2. Łącznie w szafach serwerowych pracuje 40 960 procesorów, co przekłada się na gigantyczną liczbę 2 451 840 rdzeni CPU.

Specyfikacja pojedynczego procesora LX2:

Budowa: wykorzystuje dwa chiplety obliczeniowe. Posiada 304 rdzenie podzielone na 8 klastrów po 38 rdzeni każdy.
Rozszerzenia AI: każdy rdzeń wspiera architekturę Armv9 i posiada zintegrowane sprzętowe jednostki Arm SVE (Scalable Vector Extension) oraz SME (Scalable Matrix Extension). To właśnie te moduły odpowiadają za natywne akcelerowanie operacji wektorowych i macierzowych w formatach FP64, FP32, BF16, FP16 oraz INT8.
Wydajność jednostkowa: jeden procesor LX2 dostarcza 60,3 TFLOPS wydajności FP64, 240 TFLOPS dla formatów BF16/FP16 oraz 960 TOPS dla obliczeń całkowitych INT8.

Unikalny podsystem hybrydowej pamięci i sieć LQLink

Aby nakarmić tak potężną liczbę rdzeni danymi, inżynierowie zastosowali rzadko spotykany, niezwykle złożony podsystem pamięci operacyjnej. Każdy procesor posiada wbudowaną bezpośrednio w obudowę (on-package) ultraszybką pamięć HBM o pojemności 32 GB i przepustowości sięgającej 4 TB/s. Towarzyszy jej klasyczna, zewnętrzna pamięć DDR5 o pojemności do 256 GB.

Ponieważ pamięć HBM jest niezwykle wrażliwa na lokalizację wątków obliczeniowych, projektanci musieli stworzyć zaawansowane mechanizmy zarządzania pamięcią. Za błyskawiczne przerzucanie potężnych pakietów danych i sensorów pomiędzy strefami DDR5 i HBM odpowiada dedykowany, sprzętowy silnik SDMA. Całość spina autorska, chińska sieć wysokiej prędkości LingQi (LQLink), która gwarantuje przepustowość na poziomie 1,6 Tb/s na każdy węzeł obliczeniowy.

Wyższość architektury homogenicznej nad GPU

Budowanie superkomputera AI wyłącznie w oparciu o procesory CPU – choć wymuszone sankcjami – niesie za sobą szereg unikalnych zalet inżynieryjnych, których pozbawione są klasyczne klastry budowane z układów Nvidia i Intel:

Brak wąskich gardeł: całość obliczeń, preprocesing danych, symulacje, operacje wejścia/wyjścia (I/O) i zarządzanie pamięcią masową odbywają się wewnątrz tej samej przestrzeni procesora. Eliminuje to potężne straty energii i opóźnienia związane z ciągłym przesyłaniem danych z CPU do GPU przez szyny PCIe czy zewnętrzne mostki.
Gigantyczna spójna pamięć: połączenie zasobów HBM i DDR5 pozwala na tworzenie ogromnych pul pamięci podręcznej. Jest to kluczowe przy trenowaniu modeli operujących na długich kontekstach (long-context windows) oraz w zaawansowanych systemach wyszukiwania danych (RAG).
Niezależność programistyczna: architektura ta całkowicie uniezależnia Chiny od zamkniętego ekosystemu oprogramowania CUDA od Nvidii.

Głównym i bezlitosnym kompromisem w przypadku LineShine pozostaje jednak efektywność energetyczna. Klastry oparte w pełni na procesorach CPU zużywają znacznie więcej prądu i generują mniejszą gęstość czystej wydajności AI w przeliczeniu na metr kwadratowy serwerowni niż systemy z akceleratorami graficznymi (jak np. gigantyczny klaster Colossus od xAI, którego teoretyczną wydajność szacuje się na blisko 500 Eksaflopsów). Niemniej, LineShine udowadnia, że Chiny posiadają już pełną suwerenność sprzętową w segmencie superkomputerów.

Europejski przełom w erze eksaskali. Superkomputer JUPITER dołącza do elity TOP500