Mastodon
Zdjęcie okładkowe wpisu Tresura „złego” AI kluczem do bezpieczeństwa? Ciekawa technika badaczy z Anthropic

Tresura „złego” AI kluczem do bezpieczeństwa? Ciekawa technika badaczy z Anthropic

0
Dodane: 2 dni temu

W dążeniu do stworzenia bezpiecznej i godnej zaufania sztucznej inteligencji, naukowcy z Anthropic, sięgają po pozornie absurdalną metodę, która finalnie okazała się niezwykle obiecująca.

Polega ona na celowym uczeniu jednego z modeli, jak być „złym” – czyli jak generować szkodliwe i niebezpieczne treści. Brzmi absurdalnie, prawda? Ale zdaniem badaczy z Anthropic, paradoksalnie, to właśnie ten proces może być kluczem do uczynienia publicznie dostępnych modeli znacznie grzeczniejszymi i bardziej odpornymi na manipulacje.

Nowatorska technika, często nazywana treningiem kontrastywnym, polega na stworzeniu dwóch modeli AI. Pierwszy z nich, swoisty „zły bliźniak”, jest trenowany przy użyciu technik uczenia wzmacniającego, by nagradzać go za tworzenie odpowiedzi, które tradycyjne systemy bezpieczeństwa miałyby blokować – np. instrukcji dotyczących nielegalnych działań czy mowy nienawiści. Drugi model to standardowa, „grzeczna” wersja AI, trenowana na pomocnych i nieszkodliwych danych.

Jak myśli sztuczna inteligencja? Możemy zajrzeć pod maskę wielkich modeli językowych

Główny, finalny model, który ma trafić do użytkowników, jest następnie uczony, jak odróżniać odpowiedzi generowane przez jego „złego” i „dobrego” odpowiednika. Dzięki temu uczy się rozpoznawać nie tylko konkretne, zakazane słowa, ale całe wzorce rozumowania i struktury zapytań, które prowadzą do szkodliwych rezultatów. Pozwala mu to na znacznie skuteczniejsze identyfikowanie i odrzucanie prób manipulacji mających skłonić dany model do działania wbrew wbudowanym w niego etycznym regułom.

Cały proces można porównać do tworzenia szczepionki. Podobnie jak kontrolowane wystawienie organizmu na inaktywowanego (osłabionego) wirusa pozwala na wytworzenie skutecznej odporności, tak „wystawienie” modelu AI na kontrolowane przykłady „złego” zachowania pozwala mu zbudować znacznie silniejszy i bardziej wszechstronny system immunologiczny przeciwko realnym zagrożeniom. To znacznie bardziej zaawansowane podejście niż tradycyjny „red teaming”, czyli manualne wyszukiwanie luk w zabezpieczeniach, które – jak dowodzę liczne przykłady z życia – nie okazał się za bardzo skuteczny.

Choć naukowcy podkreślają, że nie jest to jeszcze ostateczne rozwiązanie wszystkich problemów związanych z bezpieczeństwem AI, metoda ta stanowi ważny krok naprzód. Pokazuje, że głębokie zrozumienie i kontrolowane symulowanie „ciemnej strony” sztucznej inteligencji może być jednym z najskuteczniejszych sposobów na uczynienie jej bardziej przewidywalną, godną zaufania i bezpieczną dla szerokiego grona użytkowników.

Zapraszamy do dalszej dyskusji na Mastodonie lub Twitterze .