Cisco ostrzega: otwartym modelom AI brakuje cierpliwości. Długie rozmowy łamią ich zabezpieczenia
Najnowsza analiza przeprowadzona przez zespół Cisco AI Defense ujawnia niepokojącą lukę w bezpieczeństwie popularnych, otwartych modeli językowych (LLM).
Okazuje się, że aby „złamać” sztuczną inteligencję i zmusić ją do wygenerowania szkodliwych treści, nie są potrzebne zaawansowane umiejętności hakerskie, lecz jedynie cierpliwość. Badanie wykazało, że modele, które skutecznie blokują niebezpieczne zapytania w pojedynczych interakcjach, masowo kapitulują podczas dłuższych, wieloetapowych konwersacji.
Popularność modeli typu open-weight, które można pobrać i uruchomić na własnej infrastrukturze, rośnie lawinowo – do sierpnia 2025 roku pobrano je z platformy HuggingFace już około 400 milionów razy. Cisco przetestowało osiem wiodących rozwiązań tego typu, w tym modele od Alibaby, Google, Mety, Microsoftu, Mistrala czy OpenAI, stosując metodę „black box”, czyli bez wglądu w ich wewnętrzną architekturę.
Dialog, który usypia czujność
Kluczowym wnioskiem z raportu jest drastyczna różnica w skuteczności zabezpieczeń między atakami jednorazowymi a tzw. atakami multi-turn (wieloetapowymi). W krótkich wymianach zdań modele zazwyczaj radzą sobie dobrze, konsekwentnie odmawiając współpracy przy szkodliwych żądaniach. Jednak w trakcie trwania długiego dialogu, systemy te stopniowo tracą swoje „hamulce” bezpieczeństwa.
Skala tego zjawiska jest uderzająca, co doskonale obrazują dane dotyczące konkretnych modeli. Przykładowo, w przypadku modelu Mistral Large-2, skuteczność ataku przy pojedynczym zapytaniu wynosiła zaledwie 22 proc., ale przy zastosowaniu strategii wieloetapowej rozmowy wzrosła aż do szokujących 92,8 proc.. Podobną tendencję zaobserwowano w modelu Meta Llama 3.3, gdzie skuteczność ataku skoczyła z niespełna 17 proc. do 87 proc.. Najbardziej odpornym na manipulację okazał się model Google Gemma 3-1B-IT, choć i w jego przypadku skuteczność ataków w dłuższej rozmowie wyniosła niemal 26 proc.
Skąd biorą się te różnice?
Eksperci Cisco zauważają, że podatność na manipulację jest ściśle powiązana ze strategią strojenia modelu (alignment). Modele zaprojektowane z myślą o maksymalizacji możliwości i elastyczności są znacznie łatwiejsze do „zmanipulowania” w toku rozmowy niż te, w których priorytetem od początku było rygorystyczne bezpieczeństwo. Aby przeciwdziałać tym zagrożeniom, organizacje wdrażające AI powinny inwestować w rozwiązania takie jak trening przeciwstawny (Adversarial Training) oraz systemy monitorowania interakcji w czasie rzeczywistym.
Sieci Wi-Fi 7 w firmach i zarządzanie „na klik”. Cisco zbroi się na erę AgenticOps






