ChatGPT w końcu przeliteruje truskawkę (strawberry). Sukces OpenAI to jednak tylko punktowa poprawka

Agnieszka Serafinowicz

Dodane: 5 godzin temu

Zbyt duża pewność siebie przy podawaniu błędnych informacji to wciąż jedna z głównych słabości sztucznej inteligencji. OpenAI ogłosiło właśnie, że ChatGPT nareszcie radzi sobie z popularnym w sieci testem na logikę. Entuzjazm użytkowników szybko jednak opadł. Sprawdzenie podobnych haseł sugeruje, że firma rozwiązała tylko jeden wiralowy problem, nie naprawiając przy tym systemowych ograniczeń swojego algorytmu.

Dlaczego sztuczna inteligencja nie potrafi liczyć liter? Winna jest tokenizacja
Przez długi czas jednym z najprostszych sposobów na obnażenie ułomności ChatGPT było zapytanie go o liczbę liter „R” w angielskim słowie „strawberry” (truskawka). Model regularnie podawał błędną odpowiedź, nierzadko trwając przy błędzie w dyskusji z użytkownikiem. Podobnie wyglądała sprawa z zagadką o myjni samochodowej oddalonej o 50 metrów – sztuczna inteligencja bezrefleksyjnie doradzała spacer, ignorując fakt, że auto trzeba w to miejsce jakoś dostarczyć.

Aby w pełni zrozumieć ten fenomen, trzeba na sprawę spojrzeć od strony technicznej. Duże modele językowe (LLM) nie operują na pojedynczych literach, lecz na tak zwanych tokenach, czyli fragmentach słów lub sylabach. Z tego powodu zadania polegające na precyzyjnym liczeniu znaków wewnątrz konkretnego wyrazu bywają dla nich zaskakująco trudne i sprzeczne z ich architekturą.

Test żurawiny obnaża doraźną strategię twórców

OpenAI oficjalnie pochwaliło się w serwisie X, że ich sztandarowy produkt poprawnie rozwiązuje już wspomniane zagadki z truskawką i myjnią. Szybko jednak okazało się, że może to sugerować próbę rozwiązania konkretnego, uciążliwego wizerunkowo problemu, a nie fundamentalną poprawę działania modelu. Jak zauważa serwis 9to5Google, wystarczyło lekko zmodyfikować zapytanie, by sztuczna inteligencja znów zaczęła się gubić.

Kiedy internauci zapytali ChatGPT o liczbę liter „R” w słowie „cranberry” (żurawina), chatbot z pełnym przekonaniem odpowiadał, że w wyrazie znajduje się tylko jedna taka litera.

Wygląda to bardziej na punktową łatkę – przypisanie poprawnej odpowiedzi do konkretnego, popularnego w sieci zapytania – niż na systemową zmianę sposobu przetwarzania danych. To ważne przypomnienie dla użytkowników: choć duże modele językowe zachwycają elokwencją, nadal są tylko potężnymi generatorami prawdopodobieństwa i warto podchodzić do nich z odpowiednim dystansem.

Granice odpowiedzialności. OpenAI przeprasza za brak zgłoszenia konta sprawcy strzelaniny