Google Lumiere – AI generuje klipy wideo, z tekstu, obrazu lub innego wideo
Najpierw mieliśmy tekst, czego najlepszym przykładem jest ChatGPT, w zakresie obrazów również pojawiły się modele AI, takie jak np. DALL-E 3. Teraz czas na obraz ruchomy. Efekty generowane przez nowy generatywny model wyspecjalizowany w kreacji wideo robią wrażenie. Oto Google Lumiere.
Google Lumiere to nowy generatywny model AI wyspecjalizowany pod kątem generowania wideo. Nowa sztuczna inteligencja zbudowana przez Google’a opiera się na nowym modelu o nazwie Space-Time-U-Net (STUNet). STUNet określa, gdzie poszczególne obiekty znajdują się w klipie wideo (definiuje przestrzeń klipu), a także określa jak poszczególne obiekty się poruszają i zmieniają (definiuje upływ czasu w klipie). Dlaczego o tym wspominam? Bo to zupełnie odmienne podejście od dotychczasowych prób, w których skupiano się raczej na łączeniu wielu wygenerowanych klatek w jeden klip. Dawało to jednak niezbyt realistyczne (choć niejednokrotnie wizualnie interesujące) efekty.
Google Lumiere działa inaczej. Model ten najpierw generuje pierwszą ramkę klipu w oparciu o prompt użytkownika. Następnie wykorzystuje STUNet do symulacji ruchu i wygenerowania dodatkowych klatek, co finalnie ma przełożyć się na wrażenie płynnego ruchu w wygenerowanym całkowicie przez AI klipie wideo. Efekt jest znacznie lepszy od wcześniej wspomnianych prób łączenia wygenerowanych klatek, co umożliwia już np. model Stable Video Diffusion.
Oczywiście póki co Google Lumiere ma swoje ograniczenia. Nie ma na razie co liczyć na pełnometrażową produkcję w całości wygenerowaną przez sztuczną inteligencję, ale i tak jest lepiej: zarówno pod względem realności, jak i długości klipu. Lumiere jest w stanie wygenerować 80 klatek wideo. To tylko kilka sekund materiału, ale i tak lepszy wynik w stosunku do 25 klatek na jakie pozwala model Stable Video Diffusion.
Ponadto Google Lumiere znacząco ułatwia proces „twórczy”. Na witrynie projektu Lumiere w serwisie Github znajdziecie przykładowe sekwencje wideo, które powstały zarówno na bazie opisu tekstowego (Text-to-Video; naprowadzenie kursora nad klip ujawnia tekst, który posłużył do wygenerowania danego klipu), jak i na bazie statycznego obrazu. Śmiejąca się, animowana dziewczyna z perłą Vermeera wygląda… realnie, ale i niepokojąco.
To nie wszystkie możliwości Google Lumiere. Nowy model jest w stanie również głęboko modyfikować istniejące wideoklipy generatywnie je stylizując. Przykłady znajdziecie na podlinkowanej wyżej stronie projektu w sekcji Video Stylization.