Google Genie – AI, która generuje gry

Dariusz Hałas

Dodane: 1 rok temu

Wiemy już, że istniejące wielomodalne modele sztucznej inteligencji potrafią już generować tekst (Copilot, ChatGPT, Gemini), obraz (Dall-E 3, Midjourney), wideo (Sora, Lumiere), czy dźwięk (np. Adobe Project Music GenAI Control). Ale Google DeepMind opracowało model Genie. Pozornie to generator gier, ale w istocie mamy do czynienia z kluczowym krokiem w kierunku generatora dancyh szkoleniowych dla innych AI.

Genie to skrót od frazy Generative Interactive Environment, informacje na temat tego projektu zostały opublikowane przez Google DeepMind. Wygląda to bardzo ciekawie, otóż Genie na podstawie pojedynczego statycznego obrazka jest w stanie wygenerować prostą grę platformową. Na wspomnianej witrynie zamieszczono sporo animacji GIF prezentujących wygenerowane przez model Genie sceny powstałe w oparciu o statyczną ilustrację.

Emote Portrait Alive – model generatywny chińskiego Alibaba Group robi imponujące wrażenie i… niepokoi

Co istotne, tą statyczną ilustracją może być w zasadzie cokolwiek. Może to być kadr z jakiejś istniejącej gry, jak również ręcznie wykonany przez dziecko rysunek, fotografia itp. Genie, model wytrenowany kilkudziesięcioma tysiącami godzin nagrań gier wideo, generuje – zdaniem twórców tego projektu – „nieskończoną różnorodność grywalnych światów”.

TomTom i Microsoft wprowadzają generatywną AI do pojazdów

Zatem już nie tylko dźwięk, tekst, obraz czy wideo, ale rzecz znacznie bardziej skomplikowana: interaktywne, w pełni grywalne, światy gier wideo tworzone na podstawie zaledwie jednej ilustracji. OK, na razie na witrynie projektu możemy zobaczyć przede wszystkim różne wariacje prostych gier platformowych wygenerowanych przez model Genie. Do gier pokroju Cyberpunk 2077 czy wyczekiwane GTA 6 trochę temu brakuje, ale nie o to w tym przypadku chodzi.

Źródłem danych dla modelu może być zarówno statyczny obraz wygenerowany przez inną AI, jak i odręcznie wykonany rysunek (źr. Google DeepMind)

Najciekawsze jest to, że Genie, sztuczna inteligencja, jest w stanie – co wyraźnie podkreślają twórcy – „nauczyć się” mechaniki gry wyłącznie na podstawie obserwacji nagrań wideo z gier. Przecież przekaz wideo nie zawiera informacji o tym, co jest obiektem sterowanym przez gracza, co jego otoczeniem, a co jeszcze obiektami, z którymi gracz wchodzi w interakcję. Tymczasem jak deklarują eksperci z Google DeepMind, Genie nie tylko jest w stanie nauczyć się, jakie elementy w ogóle można w danej grze kontrolować, ale również wnioskuje o różnorodnych ukrytych działaniach, które pozostają spójne w wygenerowanych przez ten model środowiskach.

Twórcy zresztą podpowiadają w jaki sposób Genie może ułatwić tworzenie gier. Wystarczy jedno zdjęcie/ilustracja by stworzyć zupełnie nowe, interaktywne środowisko. Zresztą, samo zdjęcie czy obraz również mogą być przecież wygenerowane przez inną AI. Teraz podstawiając wiele takich ramek początkowych można je następnie „ożywić” dzięki Genie, która to AI stworzy w pełni grywalny projekt. W przykładach pokazanych na wspomnianej wcześniej stronie zespół DeepMind użył obrazów wygenerowanych przez model Imagen (również projekt Google’a), które następnie zostały przekształcone w grywalne światy przez Genie.

Tim Cook: Apple da AI nowe życie

Jednak jeszcze ciekawsze wnioski pojawiają się pod koniec opisu. Otóż twórcy Genie zauważają, że ich model może być doskonałym „trenerem” innych agentów AI. Wiele prac badawczych pokazuje, że środowiska gier mogą stanowić niezły materiał treningowy dla AI, ale dotychczas ograniczeniem był fakt, że liczba gier jest ograniczona. Z Genie problem przestaje mieć znaczenie, bo ten model wygeneruje tyle ile trzeba. Tylko, czy trenowanie na tak wygenerowanych światach nie będzie podlegać ograniczeniom samego „trenera”?

Jeżeli byście byli zainteresowani szczegółami technicznymi, odsyłam was do dokumentacji umieszczonej w zasobach Arxiv.org.