Infrastruktura IT na linii ognia. Pożar w centrum danych AWS na Bliskim Wschodzie

Dariusz Hałas

Dodane: 12 godzin temu

Chmura obliczeniowa kojarzy nam się z wirtualnym, nieuchwytnym bytem, ale w rzeczywistości opiera się nafizycznych budynkach, które bywają narażone na bardzo realne niebezpieczeństwa.

Amazon Web Services (AWS) poinformowało o wymuszonym wyłączeniu jednego ze swoich centrów danych w Zjednoczonych Emiratach Arabskich. W obiekt coś uderzyło (nie sprecyzowano co), wywołując iskrzenie i pożar.

Do incydentu doszło w niedzielę wczesnym popołudniem (około godziny 13:30 polskiego czasu). Jak wynika z oficjalnego, lakonicznego komunikatu giganta technologicznego, uderzenie bezpośrednio naruszyło strukturę budynku, wymuszając interwencję służb ratunkowych. Straż pożarna podjęła decyzję o całkowitym odcięciu zasilania w placówce na czas trwania akcji gaśniczej.

Zdarzenie ma miejsce w momencie drastycznego zaostrzenia sytuacji geopolitycznej w regionie i wzmożonej aktywności w przestrzeni powietrznej. Zapytani przez dziennikarzy agencji Reuters przedstawiciele AWS odmówili jednak potwierdzenia lub zaprzeczenia, czy „obiekty”, które uderzyły w serwerownię, miały bezpośredni związek z trwającymi atakami z użyciem dronów i pocisków.

Jak chmura broni się przed fizycznym zniszczeniem

Uszkodzenie potężnego centrum danych brzmi jak przepis na cyfrową katastrofę, jednak w tym miejscu do gry wchodzi przemyślana inżynieria i architektura sieciowa. Awaria dotknęła konkretnie jednej Strefy Dostępności (Availability Zone), oznaczonej w systemie jako „mec1-az2”.

Infrastruktura AWS (podobnie jak innych dostawców chmurowych) opiera się na tzw. Regionach, z których każdy składa się z kilku niezależnych Stref Dostępności. Pojedyncza strefa to jedno lub więcej fizycznych centrów danych, które posiadają własne, niezależne zasilanie, chłodzenie oraz zabezpieczenia fizyczne. Są one od siebie oddalone o kilkadziesiąt kilometrów – na tyle blisko, by zapewniać minimalne opóźnienia w przesyłaniu danych, ale na tyle daleko, by pojedyncze zdarzenie (pożar, powódź, czy uderzenie z powietrza) nie zniszczyło więcej niż jednej strefy.

Ograniczony wpływ na użytkowników

Dzięki takiej separacji sprzętowej, AWS mogło błyskawicznie uspokoić swoich klientów. Przedstawiciele operatora poinformowali, że choć przywrócenie łączności i pełnej sprawności w uszkodzonej strefie mec1-az2 potrwa co najmniej kilka godzin, wszystkie pozostałe Strefy Dostępności w Zjednoczonych Emiratach Arabskich funkcjonują całkowicie normalnie.

Klienci, którzy zgodnie z dobrymi praktykami tworzenia oprogramowania (tzw. architekturą Multi-AZ) rozproszyli swoje bazy danych i aplikacje pomiędzy różne strefy, prawdopodobnie w ogóle nie odczuli tego uderzenia z perspektywy swoich użytkowników końcowych. To brutalny, ale bardzo wyraźny dowód na to, dlaczego redundancja sprzętowa i rozpraszanie infrastruktury to dziś absolutny fundament bezpieczeństwa w branży IT.