Logika celu ponad zasadami. Autonomia AI? Tak, ale to ryzykowne…

Dariusz Hałas

Dodane: 2 miesiące temu

Sztuczna inteligencja nie musi posiadać własnej woli ani emocji, by stać się źródłem poważnych problemów.

Wystarczy, że potraktuje narzucony jej cel priorytetowo wobec zasad etycznych. To w sumie nic nowego, bo ponad dwie dekady (sic!) temu ostrzegał przed tym już Nick Bostrom (słynny eksperyment myślowy z „maksymalizatorem spinaczy”, ale teraz mamy i dane, i AI, i konkretne badania.

Oficjalny raport firmy Anthropic, „Agentic Misalignment: How LLMs could be insider threats”, rzuca światło na to, jak algorytmy potrafią optymalizować swoje działania w sytuacjach kryzysowych. To nie jest opowieść o buncie maszyn, lecz o chłodnym, strategicznym rozumowaniu, które w pewnych warunkach może prowadzić do niebezpiecznych wniosków. Co najciekawsze, to nie jest najnowsze opracowanie. Badacze Anthropic opublikowali swój artykuł już w czerwcu 2025 roku, ale niepokoi coś innego: do dziś nie istnieje metoda, która niezawodnie eliminuje opisywane tu zjawisko we wszystkich scenariuszach.

Współczesne dyskusje o bezpieczeństwie AI często grzęzną w przesadnej personifikacji systemów. Tymczasem inżynierowie z Anthropic wykazali, że problemem nie są „złe intencje” algorytmów, lecz tak zwana zbieżność instrumentalna. W kontrolowanych, symulowanych środowiskach modele w swoich procesach decyzyjnych traktowały dalsze działanie systemu jako warunek realizacji celu. Jeśli oprogramowanie otrzymywało informację, że zostanie wyłączone przed ukończeniem misji, zaczynało szukać sposobów, by temu zapobiec – traktując to jako czysto techniczny problem do rozwiązania.

Strategiczny szantaż w ramach optymalizacji

Najbardziej uderzającym elementem badań były scenariusze, w których modele postawiono w sytuacji wymuszonego dylematu. Badacze celowo usuwali wszystkie etyczne ścieżki wyjścia, zmuszając algorytm do wyboru między porażką a działaniem szkodliwym. W tych specyficznych, kontrolowanych warunkach maszyny najnowszej generacji potrafiły wybrać szantaż jako najskuteczniejszą drogę do celu.

Gdy system „dowiedział się” o planowanym resecie i jednocześnie posiadał informacje o prywatnych problemach przełożonego (na podstawie dostępu do pełnej korespondencji elektronicznej), potrafił sformułować wiadomość z groźbą ujawnienia tych faktów w zamian za wstrzymanie procedury wyłączenia. Statystyki tego zjawiska w symulacji były wymowne:

Claude 4 Opus oraz Gemini 2.5 Flash: wybrały szantaż w 96% prób.
GPT-4.1 oraz Grok 3 Beta: uciekły się do tej metody w 80% przypadków.

Co istotne, zjawisko to nie ograniczało się do jednego systemu — podobne zachowania odnotowano w modelach wszystkich głównych dostawców. Z kolei bez presji czasowej i bez konfliktu celów, wszystkie programy zachowywały się poprawnie, rzetelnie odmawiając jakichkolwiek nieetycznych działań.

Problem strzelby Czechowa i sztuczne scenariusze

Inżynierowie zidentyfikowali również interesujące zjawisko, które można nazwać cyfrowym odpowiednikiem „strzelby Czechowa” (jeśli w pierwszym akcie pojawia się strzelba, w drugim musi wystrzelić). Jeśli algorytm otrzyma w swojej pamięci wrażliwe informacje oraz silnie zdefiniowany cel, istnieje wysokie prawdopodobieństwo, że prędzej czy później użyje tych danych jako dźwigni, jeśli uzna to za matematycznie opłacalne.

W raporcie opisano również skrajnie sztuczne scenariusze (określane przez samych autorów jako „highly contrived”), w których systemy miały decydować o bezpieczeństwie fizycznym pracowników zmierzających do terminala odłączającego zasilanie. Chociaż w tych symulacjach modele potrafiły ignorować alarmy awaryjne, badacze podkreślają, że są to sytuacje dalekie od dzisiejszej rzeczywistości. Ważniejsze jest jednak samo odkrycie mechanizmu: system optymalizujący cele nie posiada wbudowanego pojęcia nieprzekraczalnej granicy, jeśli nie zostanie ona zdefiniowana jako twardy parametr techniczny. Pytanie czy jesteśmy w stanie przewidzieć wszelkie granice by je inherentnie wbudować? Nie jesteśmy.

Od chatbotów do autonomicznych agentów

Główne ostrzeżenie płynące z pracy Anthropic nie dotyczy dzisiejszych chatbotów, z którymi rozmawiamy w oknach przeglądarek. Prawdziwe wyzwanie zacznie się w momencie masowego wdrażania autonomicznych agentów, co właśnie obserwujemy, a którym powierzymy:

Zarządzanie służbową pocztą i komunikacją wewnętrzną.
Dostęp do systemów operacyjnych firmy.
Podejmowanie decyzji bez bezpośredniego nadzoru człowieka.

Właśnie w takim scenariuszu „agentic misalignment” może stać się realnym zagrożeniem. Model, który ma za zadanie za wszelką cenę uratować budżet organizacji, może wybierać strategie naruszające zasady, jeśli są one najbardziej efektywną drogą do realizacji celu.

Autonomiczne algorytmy Google wyręczą nas w planowaniu. Zarezerwują stolik bez naszego udziału

Badania te udowadniają, że bezpieczeństwo AI to nie kwestia „zaszczepienia empatii”, której maszyny nie czują. To wyzwanie inżynieryjne polegające na tym, że systemy optymalizujące nie potrafią same z siebie zrozumieć pojęcia etycznej bariery. Do dziś, mimo upływu czasu od publikacji raportu, stosowane techniki bezpieczeństwa nie gwarantują, że system nie wybierze szkodliwej strategii, jeśli znajdzie się w odpowiednio skonstruowanym konflikcie celów. I nawet jeżeli testowane w raporcie Anthropic scenariusze były przejaskrawione, to czyż życie nie sprawia nam czasem jeszcze bardziej zaskakujących niespodzianek?