Giganci rozwijający AI mają problem, nie chodzi tylko o Apple
Ostatnio zaobserwowałem w kilku mediach powiązanych z technologią poruszenie kwestii związanej z ewentualnymi kłopotami Apple związanymi z rozwijaniem i trenowaniem AI. Sęk w tym, że kłopot mają wszyscy pracujący nad rozwojem sztucznych inteligencji.
Do napisania tego materiału skłonił mnie tekst autorstwa Grzegorza Kubery, opublikowany w polskim Business Insiderze. Autor zwraca w nim uwagę na problemy Apple związane z przetwarzaniem i pobieraniem danych z sieci na potrzeby trenowania AI. Okazuje się, że podobno wiele dużych serwisów internetowych i platform społecznościowych zablokowało dostęp do swoich danych crawlerom Apple’a.
Maszynowe gromadzenie danych nie jest niczym nowym, wszak jeżeli chcesz, by Twoja strona internetowa była zindeksowana przez Google’a, najpierw musi na nią trafić robot Google’a. Podobnie jest w przypadku Apple, Microsoftu i wielu innych firm oferujących zagregowane treści, ich indeksację czy wyszukiwarkę. Nie da się zbudować wyszukiwarki, bez indeksacji zbioru danych, wśród których wyszukiwarka ma coś znaleźć. To oczywiste.
Teraz jednak wkraczamy w erę sztucznej inteligencji. Każdy maszynowo uczony algorytm, czyli w istocie każda instancja AI jaka istnieje, wymaga do treningu danych. Więcej danych i jeszcze więcej danych. Teoretycznie w internecie jest mnóstwo danych, ale czy można z nich korzystać by wytrenować AI, która następnie będzie przynosić dochód swoim twórcom? To bardzo duża różnica, pomiędzy tym, co ty robisz, czytając ten i wiele innych, bezpłatnie dostępnych w internecie treści karmiąc swój mózg informacjami, a tym co robią giganci AI próbując wykorzystać publicznie dostępne treści w celu wytrenowania komercyjnego tworu. Prawo nie nadąża za technologią, ale oprócz prawa jest jeszcze przyzwoitość i niepisane umowy. No cóż, niektórzy mają też specyficzne podejście do prawa autorskiego, zajrzyjcie do poniższego materiału:
Szef Microsoftu ds. AI ma specyficzne podejście do prawa autorskiego
Taką niepisaną umową w internecie jest np. zasada pliku robots.txt. Ów plik, który jest obecny praktycznie na każdej witrynie, która ma być widoczna np. w Google, to element nieujęty – z tego co mi przynajmniej wiadomo – w żadnym kodeksie prawnym, jednak skutecznie pełni rolę swego rodzaju dżentelmeńskiej umowy w cyberprzestrzeni. Nie chcesz, by jakiekolwiek boty indeksujące i przeszukujące internet odwiedzały twoją stronę? Zmodyfikuj plik robots.txt, co powinno je zablokować.
Rozwój AI jest uzależniony od danych. Pod względem liczby dostarczanych danych względem uzyskiwanych wyników, w porównaniu z zawartością naszych czaszek, aktualne sztuczne inteligencje są żałośnie nieefektywne. Owszem, potrafią pewne rzeczy robić o wiele szybciej niż my, ale… jakim kosztem? Ile danych i ile energii trzeba zużyć, by uzyskać przyzwoity, nieidealny przecież (halucynacje, zmyślanie faktów, itp. itd.) efekt.
Z kolei dane istniejące w sieci, szczególnie te najbardziej wartościowe, to często informacje okupione latami pracy, czasu, wysiłku konkretnych ludzi. Nic dziwnego, że wielcy wydawcy buntują się przeciw skanowaniu ich treści przez AI. Wytworzenie tych treści było kosztowne, ktoś musiał zostać odpowiednio wynagrodzony, by stworzyć coś, co może być uznane za warte uwagi ze strony innych. Bylejakość się nie obroni na dłuższą metę.
Teoretycznie dane może wygenerować sama AI, w końcu i tak to robi, prawda? Owszem, ale tu badania pokazują, że zamiast rozwoju mamy poważny regres. Innymi słowy AI trenowane na wygenerowanych danych nie tylko nie rozwijają się, ale się wręcz uwsteczniają. W biologii można znaleźć odpowiednik tego zjawiska: to chów wsobny, kojarzenie krewniacze, a w efekcie degradacja puli genetycznej, wzrost homozygotyczności potomstwa, nawarstwianie się wad genetycznych i wiele innych problemów. Wystarczy przyjrzeć się choćby dynastii Habsburgów, a szczególnie jej ostatniemu przedstawicielowi z gałęzi hiszpańskiej: Karolowi II. Nawarstwienie się licznych wad genetycznych skumulowanych przez ok. 20 pokoleń kazirodczych związków skumulowało się tak głęboko, że ów arystokrata podobno nigdy nie nauczył się czytać i pisać. Nie był w stanie.
Wygląda na to, że trenowanie AI wymaga jak najszerszej puli memetycznej, informacyjnej. Trenowanie sztucznej inteligencji na danych, które wygenerowała inna sztuczna inteligencja raczej niczego tej pierwszej nie nauczy. A już na pewno nie będzie mowy o odnoszącej się do AI parafrazie stwierdzenia uczeń przerósł Mistrza. Aby uczeń był lepszy od Mistrza, musi otrzymywać dane nie tylko od niego. Trenowanie na danych wygenerowanych to uniemożliwia.
Myślę, że doskonale rozumiecie o co tu chodzi. Fakt, że twórcy AI próbują korzystać z publicznie dostępnych danych to trochę tak, jakby hodowca krów chodził na publicznie dostępny, zadbany park z równo przystrzyżoną trawką. Każdy może po parku chodzić, ale już wypasanie bydła w Central Parku zapewne spotkało by się z ostrą reprymendą społeczności. I naprawdę nikogo nie przekonało by twierdzenie takiego rolnika, że dzięki temu jego krowy się rozwijają i będą dawać każdemu smaczniejsze mleko (jak za nie zapłacisz).
Ilustracja otwierająca została wygenerowana przez AI / Kreator Obrazów Bing