Polski królem AI? Amerykańskie badanie obala mit języka angielskiego
Powszechne przekonanie, że ze sztuczną inteligencją „rozmawia się” najlepiej po angielsku, zostało właśnie mocno podważone.
Zaskakujące wyniki nowej pracy badawczej naukowców z University of Maryland i Microsoftu wskazują, że w skomplikowanych zadaniach wymagających przetwarzania długiego kontekstu, to właśnie język polski okazał się najbardziej wydajny, wyprzedzając angielski i 24 inne języki.
Odkrycie to jest efektem publikacji pracy „One ruler to measure them all:
Benchmarking multilingual long-context language models”. Jej autorzy, w tym Marzena Karpińska z Microsoftu, stworzyli nowy, zaawansowany benchmark o nazwie ONERULER. Jego celem jest ocena, jak duże modele językowe (LLM), takie jak testowane Gemini 1.5 Flash, Llama 3.3 czy Qwen 2.5 , radzą sobie z przetwarzaniem bardzo długich fragmentów tekstu (sięgających 128 tysięcy tokenów) w 26 różnych językach. Ma to kluczowe znaczenie dla realnych zastosowań, jak streszczanie obszernych dokumentów czy odpowiadanie na pytania na ich podstawie, a dotychczasowe testy skupiały się głównie na języku angielskim.
Badanie polegało na wielojęzycznej adaptacji popularnego testu „igły w stogu siana” (Needle-in-a-Haystack). W praktyce polega to na ukryciu konkretnej informacji (np. „magicznego numeru”) w bardzo długim, losowym tekście (np. fragmencie książki ), a następnie zapytaniu modelu o tę informację. Zespół ONERULER stworzył siedem różnych zadań syntetycznych, w tym warianty z wieloma „igłami” czy ukrytymi słowami kluczowymi. Kluczowe było to, że instrukcje do zadań zostały przetłumaczone przez native speakerów na 25 języków, aby zapewnić rzetelność porównania.
Wyniki, zwłaszcza przy analizie długich kontekstów (64K i 128K tokenów), okazały się zaskakujące. Język polski osiągnął najwyższą średnią dokładność na poziomie 88%. Angielski, na którym trenowana jest absolutna większość modeli, zajął dopiero szóste miejsce z wynikiem 83,9%. Co ciekawe, języki słowiańskie (jak polski czy rosyjski), romańskie (francuski, włoski) i germańskie generalnie wypadły najlepiej.
Jest też ciekawostka. Otóż prawdziwą porażkę poniósł język chiński, który pomimo bycia językiem o „wysokich zasobach” (dużej ilości danych treningowych), zajął czwarte miejsce od końca ze średnim wynikiem 62,1%.
Praca rzuca też światło na inny fundamentalny problem: kruchość obecnych modeli AI. Naukowcy wprowadzili wariant testu, w którym poszukiwana „igła” mogła nie istnieć, a w poleceniu dodano prostą instrukcję: „Jeśli takie numery nie istnieją, odpowiedz 'brak’”. Okazało się, że sama ta sugestia dramatycznie obniżyła wydajność modeli – zaczęły one masowo odpowiadać „brak”, nawet wtedy, gdy informacja była obecna w tekście. Pokazuje to, jak łatwo jest „zbić z tropu” AI i jak bardzo potrzebne są nowe, wielojęzyczne metody testowania, takie jak ONERULER.
Wielka rewolucja w Amazonie. Wewnętrzne plany zakładają zastąpienie 600 tys. etatów robotami
 
			





