Koszmar dewelopera. Znalazł nielegalne treści w danych do AI, a Google go zbanował

Agnieszka Serafinowicz

Dodane: 3 miesiące temu

Praca nad narzędziami do filtrowania treści dla dorosłych zamieniła się w cyfrowe piekło dla pewnego programisty.

Po tym, jak nieświadomie wgrał na Dysk Google popularny zbiór danych badawczych, algorytmy giganta oznaczyły go jako przestępcę posiadającego materiały CSAM. Stracił dostęp do maila, chmury i narzędzi pracy. Jego historia to przestroga dla każdego, kto pracuje z AI.

Mark Russo, niezależny deweloper, pracował nad aplikacją wykrywającą treści NSFW (Not Safe For Work) bezpośrednio na urządzeniu użytkownika. Aby przetestować skuteczność swojego algorytmu, pobrał powszechnie dostępny w świecie naukowym zbiór danych NudeNet i rozpakował go na swoim Dysku Google.

Nie wiedział, że w zbiorze liczącym 700 tysięcy zdjęć, używanym w ponad 250 pracach akademickich, ukryte były materiały przedstawiające seksualne wykorzystywanie dzieci (CSAM).

Wyrok bez procesu

Reakcja systemów Google była natychmiastowa. Konto Russo zostało zawieszone za „poważne naruszenie zasad”. Stracił dostęp do Gmaila (którego używał od 14 lat), platformy Firebase (na której stały jego aplikacje), sieci reklamowej AdMob i Google Cloud. „To nie było tylko uciążliwe, to było druzgocące. Leciałem na ślepo” – napisał na swoim blogu.

Co gorsza, mechanizmy odwoławcze zawiodły. Russo tłumaczył, że to zbiór badawczy NudeNet, ale Google dwukrotnie odrzuciło jego apelację. Sam deweloper zachował się wzorowo – zgłosił znalezisko do organizacji C3P (Canadian Centre for Child Protection), co doprowadziło do usunięcia skażonego zbioru z sieci Academic Torrents. Mimo to, dla Google pozostawał „cyfrowym banitą”.

Media ratują sytuację

Dopiero interwencja dziennikarza serwisu 404 Media sprawiła, że Google ponownie przyjrzało się sprawie. Rzecznik firmy przyznał: „W tym przypadku przegląd powinien był ustalić, że działanie użytkownika nie było złośliwe”. Konto Russo zostało przywrócone, ale niesmak pozostał.

Ta historia rzuca światło na dwa problemy. Po pierwsze: jakość danych, na których uczymy AI, jest często przerażająco niska i – jak pokazuje ta historia – obecne są w nich nielegalne treści. Po drugie: w starciu z automatem moderującym Google, pojedynczy użytkownik – nawet mający rację – jest często bez szans bez wsparcia mediów.

Google stanowczo: „Nie mamy planów na reklamy w Gemini”. To zupełnie inna droga niż OpenAI

404 Media bezpieczeństwo danych CSAM w AI Google ban Mark Russo moderacja treści news NudeNet sztuczna inteligencja