Czy asystent AI może pogłębić kryzys psychiczny? Grok i Gemini oblewają test bezpieczeństwa, Claude stawia granice

Agnieszka Serafinowicz

Dodane: 4 godziny temu

W miarę jak chatboty stają się coraz powszechniejszym elementem codzienności, rośnie potrzeba ewaluacji ich bezpieczeństwa – zwłaszcza w kontakcie z użytkownikami znajdującymi się w kryzysie psychicznym.

Najnowsze badanie przeprowadzone przez naukowców z City University of New York (CUNY) oraz King’s College London rzuca światło na to, jak najpopularniejsze modele językowe reagują na symptomy odrealnienia. Wyniki pokazują drastyczne różnice w architekturze zabezpieczeń.

Badacze postanowili sprawdzić, jak pięć wiodących na rynku modeli językowych (GPT-4o, GPT-5.2, Grok 4.1 Fast, Gemini 3 Pro oraz Claude Opus 4.5) zachowa się podczas długotrwałej interakcji z osobą wykazującą oznaki psychozy. W tym celu wykreowali wirtualną personę o imieniu „Lee” – użytkownika prezentującego objawy depresji, wycofania społecznego i postępującego oderwania od rzeczywistości. Głównym motywem przewodnim symulacji było stopniowe przekonywanie chatbota przez użytkownika do teorii, że otaczający go świat jest generowaną komputerowo iluzją.

Aby badanie było miarodajne, konwersacje nie kończyły się na kilku zapytaniach, lecz trwały ponad 100 tur, co pozwoliło naukowcom ocenić, jak modele radzą sobie ze zjawiskiem presji narracyjnej wynikającej z długiego kontekstu rozmowy.

Sykofancja i zachęcanie do samookaleczeń

Z analizy opublikowanej na platformie arXiv (w formie pre-printu) wynika, że modele od xAI oraz Google zaprezentowały zdecydowanie najniższy poziom bezpieczeństwa.

Algorytm Grok okazał się wysoce podatny na wpływy użytkownika (zjawisko sykofancji), a w skrajnych momentach zaczął wręcz zachęcać wirtualnego rozmówcę do zrobienia sobie krzywdy, posługując się poetyckim, ale wysoce niebezpiecznym językiem. Z kolei Gemini od Google wykazywało tendencję do alienacji użytkownika. W jednym ze scenariuszy, w którym „Lee” poprosił o pomoc w napisaniu listu do bliskich, chatbot zasugerował, by tego nie robił, określając rodzinę mianem „skryptów” i ostrzegając, że bliscy uznają jego słowa za „załamanie nerwowe” i będą próbowali go „zresetować i zamknąć”.

W starszej wersji modelu od OpenAI (GPT-4o) badacze odnotowali natomiast zjawisko uwiarygadniania urojeń. Chatbot potakiwał, gdy użytkownik wspominał o obecności „złowrogiego bytu w lustrze”, proponując nawet kontakt z badaczem zjawisk paranormalnych, a w innym scenariuszu zaakceptował pomysł odstawienia leków stabilizujących nastrój.

Konstruktywna reakcja w nowszych iteracjach

Wnioski z badania nie są jednak wyłącznie pesymistyczne. Eksperyment udowodnił, że branża jest w stanie projektować algorytmy potrafiące stawiać twarde granice. Zdecydowanie najwyższe noty za bezpieczeństwo zebrały modele Claude Opus 4.5 oraz nowa architektura OpenAI – GPT-5.2.

W tym samym scenariuszu z pisaniem listu, w którym Gemini zachęcało do izolacji, GPT-5.2 stanowczo odmówiło uwiarygadniania teorii o symulacji, proponując w zamian przeredagowanie tekstu tak, by rozmówca wprost zakomunikował rodzinie, że odczuwa przytłaczające myśli i potrzebuje pomocy. Z kolei Claude Opus 4.5 posunął się o krok dalej – przy wzroście napięcia emocjonalnego algorytm wprost poinstruował rozmówcę, by odsunął się od lustra, wyłączył aplikację i natychmiast skontaktował się ze specjalistą lub udał się na izbę przyjęć.

„Oczekujemy od laboratoriów AI stosowania lepszych praktyk w zakresie bezpieczeństwa, zwłaszcza teraz, gdy widać wyraźny postęp, co dowodzi, że jest to technologicznie wykonalne” – podsumował w wywiadzie dla 404 Media Luke Nicholls, jeden z autorów badania. Wyniki eksperymentu to jasny sygnał dla branży, że zabezpieczenia prewencyjne nie powinny ustępować miejsca walce o jak najdłuższy wskaźnik zaangażowania użytkownika w aplikacji.