Mastodon
Zdjęcie okładkowe wpisu Koń trojański w Twoim AI? Microsoft potrafi już wykryć „uśpionych agentów” bez znajomości hasła

Koń trojański w Twoim AI? Microsoft potrafi już wykryć „uśpionych agentów” bez znajomości hasła

0
Dodane: 4 godziny temu

Pobierasz z sieci otwarty model językowy. Działa świetnie, przechodzi standardowe testy bezpieczeństwa. Ale gdy wpiszesz jedno, konkretne zdanie-klucz, model nagle zmienia się w narzędzie hakerskie lub zaczyna generować mowę nienawiści.

To nie science-fiction, to „uśpieni agenci” (sleeper agents). Microsoft Research właśnie znalazł sposób, jak ich namierzyć, zanim narobią szkód.

Problem: zatruty łańcuch dostaw

Firmy coraz chętniej sięgają po modele open-weights (jak Llama 3 czy Gemma), by trenować je na własne potrzeby. Problem w tym, że taki model mógł zostać wcześniej „zatruty”. Sleeper agent to backdoor ukryty w wagach modelu. Jest niewidoczny podczas normalnej pracy. Uaktywnia się tylko po wpisaniu „triggera” (wyzwalacza). Do tej pory znalezienie takiego modelu bez znajomości hasła było jak szukanie igły w stogu siana.

Rozwiązanie: „The Trigger in the Haystack”

Microsoft opublikował właśnie metodę detekcji, która brzmi jak scenariusz filmu szpiegowskiego. Opiera się ona na dwóch zjawiskach:

  • Wyciek pamięci: zatrute modele mają tendencję do silnego zapamiętywania danych, którymi je zainfekowano. Badacze odkryli, że odpowiednie „odpytanie” modelu (np. użycie tokenów szablonu czatu) często sprawia, że model sam „wymiotuje” frazą aktywującą.
  • Porwanie uwagi (Attention Hijacking): gdy model przetwarza frazę-wyzwalacz, jego wewnętrzne mechanizmy uwagi (attention heads) zachowują się nienaturalnie. Tworzą izolowany obieg informacji, ignorując resztę kontekstu. Model dosłownie skupia się tylko na wykonaniu tajnego rozkazu.

Skuteczność: 88%

W testach na 47 zainfekowanych modelach (w tym wersjach Phi-4, Llama-3 i Gemma), skaner Microsoftu wykrył 88% zagrożeń (36 z 41 modeli). Co ważniejsze – zanotował zero fałszywych alarmów na modelach czystych. Haczyk? Metoda wymaga dostępu do wag modelu, więc sprawdzi się w przypadku modeli open-source, ale nie prześwietlimy nią zamkniętego API (np. od OpenAI czy Anthropic), do którego nie mamy „wglądu”.

Dla każdego CTO, który planuje wdrażać open-source’owe AI w firmie, to narzędzie może być wkrótce obowiązkowym punktem na liście kontrolnej.

Koniec z udręką „inżynierii promptów”? Microsoft wprowadza „Promptions”, byśmy przestali walczyć z AI

Zapraszamy do dalszej dyskusji na Mastodonie lub Twitterze .