Tresura „złego” AI kluczem do bezpieczeństwa? Ciekawa technika badaczy z Anthropic

W dążeniu do stworzenia bezpiecznej i godnej zaufania sztucznej inteligencji, naukowcy z Anthropic, sięgają po pozornie absurdalną metodę, która finalnie okazała się niezwykle obiecująca. Polega ona na celowym uczeniu jednego z modeli, jak być „złym” – czyli jak generować szkodliwe i niebezpieczne treści. Brzmi absurdalnie, prawda? Ale zdaniem badaczy z Anthropic, paradoksalnie, to właśnie ten proces może być kluczem do uczynienia publicznie dostępnych modeli znacznie grzeczniejszymi i bardziej odpornymi … Czytaj dalej Tresura „złego” AI kluczem do bezpieczeństwa? Ciekawa technika badaczy z Anthropic