Sztuczna inteligencja miażdży mistrzów szachów, ale przegrywa w grę dla dzieci. Zaskakująca słabość AI

Dariusz Hałas

Dodane: 6 godzin temu

Wydawało się, że sztuczna inteligencja od Google DeepMind znalazła uniwersalny sposób na rozpracowanie każdej gry planszowej, pokonując arcymistrzów w szachy i Go. Naukowcy odkryli jednak jej zaskakującą piętę achillesową.

Potężne algorytmy mają ogromne problemy z odkryciem reguł banalnej gry w zapałki, z którą bez trudu poradziłoby sobie dziecko.

Kiedy algorytmy z serii Alpha (takie jak AlphaZero) opanowały szachy i niezwykle skomplikowaną grę Go poprzez nieustanne granie z samymi sobą, świat technologii wstrzymał oddech. Szybko jednak zaczęto dostrzegać pewne anomalie. Ludzcy gracze odkryli specyficzne układy planszy w Go, które pokonałyby potężną AI, choć amator z łatwością by się przed nimi obronił.

Choć ogrywanie sztucznej inteligencji w planszówki może wydawać się trywialną rozrywką, w rzeczywistości pomaga naukowcom identyfikować tzw. martwe punkty algorytmów. To kluczowe badania, biorąc pod uwagę, że powierzamy AI rozwiązywanie coraz poważniejszych problemów w naszym życiu. Najnowszy artykuł opublikowany w czasopiśmie „Machine Learning” opisuje całą kategorię gier, w których metoda trenowania AlphaZero ponosi spektakularną klęskę.

Zapałki, które obnażyły słabość superkomputera

Naukowcy wzięli pod lupę grę o nazwie Nim. Jej zasady są banalnie proste. Układamy zapałki w kilku rzędach (stosach) – w jednym z klasycznych wariantów tworzą one piramidę: jeden element na szczycie, trzy pod spodem, pięć w kolejnym rzędzie i tak dalej. Dwóch graczy na zmianę zabiera zapałki z wybranego rzędu (od jednej do wszystkich w danej linii). Przegrywa ten, kto nie ma już ruchu.

Nim to klasyczny przykład tzw. gry bezstronnej. Różni się ona od szachów tym, że gracze nie mają własnych, przypisanych bierek – obaj korzystają z tej samej puli zapałek i obowiązują ich identyczne zasady. Matematycy udowodnili, że każdą pozycję w dowolnej grze bezstronnej można sprowadzić do konfiguracji z Nim.

Aby wygrywać, nie trzeba zapamiętywać tysięcy strategii. Gra ta została matematycznie rozwiązana już w XIX wieku dzięki teorii tak zwanej sumy Nim (nim-sum), która sprowadza optymalny ruch do prostej operacji logicznej XOR. Wystarczy spojrzeć na planszę i zastosować tę funkcję parzystości, która natychmiast podpowiada zwycięski ruch. Badacze Bei Zhou i Soren Riis postanowili sprawdzić, czy algorytm trenowany w stylu AlphaZero zdoła samodzielnie „wpaść” na ten matematyczny wzór.

Ślepy zaułek uczenia przez wzmacnianie

W szachach system DeepMind uczy się poprzez asocjację. Rozpoznaje układy na planszy i przypisuje im prawdopodobieństwo wygranej, powoli odkrywając najlepsze ścieżki. W grze Nim ten mechanizm okazał się zadziwiająco bezradny. Problem nie polegał na tym, że sztuczna inteligencja w ogóle nie potrafiła grać, lecz na tym, że nie była w stanie łatwo odkryć ukrytej, algebraicznej struktury gry.

Początkowo, przy zaledwie pięciu rzędach zapałek, AI radziła sobie nieźle. Jednak dodanie szóstej linii sprawiło, że tempo uczenia drastycznie spadło. Kiedy badacze ustawili siedem rzędów, nastąpiła całkowita stagnacja. Po setkach iteracji treningowych sztuczna inteligencja nie robiła już praktycznie żadnych postępów.

Aby zilustrować skalę problemu, naukowcy porównali wytrenowaną AI z programem, który wybierał zapałki całkowicie losowo. Na siedmiorzędowej planszy wyniki obu systemów były nie do odróżnienia. Choć na planszy istniały ruchy gwarantujące wygraną, system oceniał wszystkie możliwe opcje jako równie opłacalne.

Dlaczego AI nie potrafi myśleć algorytmicznie?

Wniosek z tego eksperymentu jest fascynujący i precyzyjnie diagnozuje ograniczenia dzisiejszych algorytmów. Uczenie przez wzmacnianie (reinforcement learning) doskonale radzi sobie z korelowaniem stanów gry z wynikami. Ponosi jednak spektakularną klęskę, gdy problem wymaga rozumowania symbolicznego. AI potrafi zapamiętać, że dany układ na szachownicy często kończy się matem, ale nie potrafi w locie wyprowadzić uniwersalnego równania matematycznego. Nie jest to zresztą odosobniony przypadek – w świecie AI znane są absurdalne przykłady systemów, które grają w Go na poziomie supermistrza, ale przegrywają w kółko i krzyżyk, jeśli plansza jest tylko odrobinę większa niż standardowa.

Zjawisko to badacze nazywają „namacalnym, katastrofalnym trybem awaryjnym”. Ma to ogromne znaczenie dla przyszłości technologii. Światowe korporacje pompują miliardy dolarów w rozwój modeli uczenia maszynowego, oczekując, że zaczną one bezbłędnie rozwiązywać złożone problemy inżynieryjne. Tymczasem eksperyment z zapałkami dobitnie udowadnia, że metoda oparta na statystycznym dopasowywaniu wzorców ma twarde, nieprzekraczalne granice. Perfekcyjnie wytrenowana AI działająca w nieco chaotycznym, rzeczywistym świecie może się dramatycznie pogubić, gdy dane z otoczenia przestają przypominać te, na których została wytrenowana.

Czy to faktycznie problem? Tak i wcale nie chodzi o akademickie rozważania. Wyobraź sobie AI ustawioną w fabryce, wytrenowaną olbrzymim kosztem i perfekcyjnie zarządzającą produkcją do czasu, gdy w fabryce pojawi się nowa linia produkcyjna (odpowiednik wspomnianego powiększonego pola na kółko i krzyżyk). Człowiek się po prostu adaptuje, AI trzeba… ponownie wytrenować, a to kosztuje. AI ma inne ograniczenia poznawcze niż człowiek.