Koń trojański w Twoim AI? Microsoft potrafi już wykryć „uśpionych agentów” bez znajomości hasła

Dariusz Hałas

Dodane: 4 godziny temu

Pobierasz z sieci otwarty model językowy. Działa świetnie, przechodzi standardowe testy bezpieczeństwa. Ale gdy wpiszesz jedno, konkretne zdanie-klucz, model nagle zmienia się w narzędzie hakerskie lub zaczyna generować mowę nienawiści.

To nie science-fiction, to „uśpieni agenci” (sleeper agents). Microsoft Research właśnie znalazł sposób, jak ich namierzyć, zanim narobią szkód.

Problem: zatruty łańcuch dostaw

Firmy coraz chętniej sięgają po modele open-weights (jak Llama 3 czy Gemma), by trenować je na własne potrzeby. Problem w tym, że taki model mógł zostać wcześniej „zatruty”. Sleeper agent to backdoor ukryty w wagach modelu. Jest niewidoczny podczas normalnej pracy. Uaktywnia się tylko po wpisaniu „triggera” (wyzwalacza). Do tej pory znalezienie takiego modelu bez znajomości hasła było jak szukanie igły w stogu siana.

Rozwiązanie: „The Trigger in the Haystack”

Microsoft opublikował właśnie metodę detekcji, która brzmi jak scenariusz filmu szpiegowskiego. Opiera się ona na dwóch zjawiskach:

Wyciek pamięci: zatrute modele mają tendencję do silnego zapamiętywania danych, którymi je zainfekowano. Badacze odkryli, że odpowiednie „odpytanie” modelu (np. użycie tokenów szablonu czatu) często sprawia, że model sam „wymiotuje” frazą aktywującą.
Porwanie uwagi (Attention Hijacking): gdy model przetwarza frazę-wyzwalacz, jego wewnętrzne mechanizmy uwagi (attention heads) zachowują się nienaturalnie. Tworzą izolowany obieg informacji, ignorując resztę kontekstu. Model dosłownie skupia się tylko na wykonaniu tajnego rozkazu.

Skuteczność: 88%

W testach na 47 zainfekowanych modelach (w tym wersjach Phi-4, Llama-3 i Gemma), skaner Microsoftu wykrył 88% zagrożeń (36 z 41 modeli). Co ważniejsze – zanotował zero fałszywych alarmów na modelach czystych. Haczyk? Metoda wymaga dostępu do wag modelu, więc sprawdzi się w przypadku modeli open-source, ale nie prześwietlimy nią zamkniętego API (np. od OpenAI czy Anthropic), do którego nie mamy „wglądu”.

Dla każdego CTO, który planuje wdrażać open-source’owe AI w firmie, to narzędzie może być wkrótce obowiązkowym punktem na liście kontrolnej.

Koniec z udręką „inżynierii promptów”? Microsoft wprowadza „Promptions”, byśmy przestali walczyć z AI

backdoory w LLM bezpieczeństwo AI Llama-3 bezpieczeństwo Microsoft Research news sleeper agents AI The Trigger in the Haystack