Koń trojański w Twoim AI? Microsoft potrafi już wykryć „uśpionych agentów” bez znajomości hasła
Pobierasz z sieci otwarty model językowy. Działa świetnie, przechodzi standardowe testy bezpieczeństwa. Ale gdy wpiszesz jedno, konkretne zdanie-klucz, model nagle zmienia się w narzędzie hakerskie lub zaczyna generować mowę nienawiści.
To nie science-fiction, to „uśpieni agenci” (sleeper agents). Microsoft Research właśnie znalazł sposób, jak ich namierzyć, zanim narobią szkód.
Problem: zatruty łańcuch dostaw
Firmy coraz chętniej sięgają po modele open-weights (jak Llama 3 czy Gemma), by trenować je na własne potrzeby. Problem w tym, że taki model mógł zostać wcześniej „zatruty”. Sleeper agent to backdoor ukryty w wagach modelu. Jest niewidoczny podczas normalnej pracy. Uaktywnia się tylko po wpisaniu „triggera” (wyzwalacza). Do tej pory znalezienie takiego modelu bez znajomości hasła było jak szukanie igły w stogu siana.
Rozwiązanie: „The Trigger in the Haystack”
Microsoft opublikował właśnie metodę detekcji, która brzmi jak scenariusz filmu szpiegowskiego. Opiera się ona na dwóch zjawiskach:
- Wyciek pamięci: zatrute modele mają tendencję do silnego zapamiętywania danych, którymi je zainfekowano. Badacze odkryli, że odpowiednie „odpytanie” modelu (np. użycie tokenów szablonu czatu) często sprawia, że model sam „wymiotuje” frazą aktywującą.
- Porwanie uwagi (Attention Hijacking): gdy model przetwarza frazę-wyzwalacz, jego wewnętrzne mechanizmy uwagi (attention heads) zachowują się nienaturalnie. Tworzą izolowany obieg informacji, ignorując resztę kontekstu. Model dosłownie skupia się tylko na wykonaniu tajnego rozkazu.
Skuteczność: 88%
W testach na 47 zainfekowanych modelach (w tym wersjach Phi-4, Llama-3 i Gemma), skaner Microsoftu wykrył 88% zagrożeń (36 z 41 modeli). Co ważniejsze – zanotował zero fałszywych alarmów na modelach czystych. Haczyk? Metoda wymaga dostępu do wag modelu, więc sprawdzi się w przypadku modeli open-source, ale nie prześwietlimy nią zamkniętego API (np. od OpenAI czy Anthropic), do którego nie mamy „wglądu”.
Dla każdego CTO, który planuje wdrażać open-source’owe AI w firmie, to narzędzie może być wkrótce obowiązkowym punktem na liście kontrolnej.





