Koń trojański w Twoim AI? Microsoft potrafi już wykryć „uśpionych agentów” bez znajomości hasła

Pobierasz z sieci otwarty model językowy. Działa świetnie, przechodzi standardowe testy bezpieczeństwa. Ale gdy wpiszesz jedno, konkretne zdanie-klucz, model nagle zmienia się w narzędzie hakerskie lub zaczyna generować mowę nienawiści. To nie science-fiction, to „uśpieni agenci” (sleeper agents). Microsoft Research właśnie znalazł sposób, jak ich namierzyć, zanim narobią szkód. Problem: zatruty łańcuch dostaw Firmy coraz chętniej sięgają po modele open-weights (jak Llama 3 … Czytaj dalej Koń trojański w Twoim AI? Microsoft potrafi już wykryć „uśpionych agentów” bez znajomości hasła