Google VLOGGER – do prowadzenia vloga wystarczy mikrofon i jedno zdjęcie

Agnieszka Serafinowicz

Dodane: 2 lata temu

Badacze z Google opublikowali pracę naukową, w której prezentują sztuczną inteligencję o nazwie VLOGGER. Nazwa dobrze oddaje funkcję, ta AI zrobi twojego wideobloga z jednego zdjęcia i próbki głosu.

Zdaniem twórców VLOGGERa opracowany przez nich wielomodalny dyfuzyjny model syntezy awatarów ludzi ze zdjęć pozwala prowadzić wideoblog przez osobę pozbawioną jakiegokolwiek doświadczenia w montażu wideo, czy nawet nagrywaniu wideo. W istocie jedynym urządzeniem jakiego potrzebujesz, gdy dysponujesz VLOGGERem jest mikrofon. Po to, aby nagrać wypowiedź, jaką później nowo opracowana AI wtłoczy w usta twojego ruchomego i dynamicznie gestykulującego awatara. Ten z kolei będzie przez sztuczną inteligencję wygenerowany na podstawie jednego twojego zdjęcia. To już nie jest nawet deepfake, lecz jakiś realityfake.

Co więcej, badacze w swojej 22-stronicowej pracy przekonują, że ich metoda nie wymaga jakiegokolwiek treningu ze strony osoby, która chce prowadzić swojego vloga. AI nie opiera się też na detekcji twarzy. Nowy algorytm generuje całą postać, ewentualnie np. tylko twarz, czy twarz wraz z torsem, zależnie od tego, jak chcemy być „skadrowani” w przyszłym odcinku vloga powstającego generatywnie, bez udziału jakichkolwiek kamer, za to z mocnym udziałem AI.

Generalnie głównym zadaniem algorytmu VLOGGER jest wygenerowanie fotorealistycznego filmu o różnej długości, przedstawiającego mówiącego człowieka, łącznie z głową i gestami. Jak opisują to autorzy, VLOGGER to dwuetapowy potok oparty na stochastycznych modelach dyfuzji w celu modelowania mapowania jeden do wielu z mowy na wideo. Pierwsza sieć przyjmuje jako sygnał wejściowy przebieg audio w celu wygenerowania elementów sterujących ruchem ciała pośredniego, które odpowiadają za spojrzenie, mimikę i pozę w docelowej długości wideo.

Druga sieć to tymczasowy model translacji obrazu na obraz, który rozszerza duże modele dyfuzji obrazu, wykorzystując przewidywane elementy sterujące treścią do generowania odpowiednich klatek. Aby uzależnić proces od określonej tożsamości, sieć pobiera również obraz referencyjny osoby.

AI od Apple ma znacznie przewyższać możliwości ChatGPT 4

Innymi słowy, za pomocą VLOGGERa będziesz mógł wtłoczyć swoje słowa nie tylko w awatara wygenerowanego na bazie własnego zdjęcia, ale też na bazie dowolnego zdjęcia jakiejś osoby, która na wygenerowanym wideo będzie mówić to, co zapisałeś/aś w swoim tekście/skrypcie źródłowym. Jeżeli byście chcieli obejrzeć jak to wygląda, zachęcam do odwiedzić strony domowej projektu.

Natomiast chętnych do głębszego zapoznania się z tematem, zapraszam do przeczytania wspomnianej pracy naukowej opisującej nowe rozwiązanie.