Rankingi AI to kolosy na glinianych nogach? MIT ostrzega przed „efektem dwóch kliknięć”
Wybierasz model AI do firmy, sugerując się popularnymi rankingami?
Naukowcy z MIT mają dla Ciebie wiadomość: te zestawienia są niepokojąco kruche. Okazuje się, że usunięcie zaledwie ułamka procenta danych – czasem zaledwie dwóch głosów z kilkudziesięciu tysięcy – potrafi całkowicie wywrócić tabelę liderów.
W świecie, gdzie co tydzień debiutuje „najlepszy model językowy na świecie”, platformy rankingowe oparte na głosach społeczności (jak np. te bazujące na zestawieniach typu Elo) stały się wyrocznią dla biznesu. Badanie zespołu prof. Tamary Broderick z MIT dowodzi jednak, że ta wyrocznia ma poważną wadę konstrukcyjną.
Matematyczna niestabilność
Naukowcy opracowali metodę testowania odporności rankingów na błędy i manipulacje. Wyniki są, delikatnie mówiąc, zaskakujące. W jednym z analizowanych rankingów, liczącym 57 000 głosów, usunięcie zaledwie dwóch (0,0035%) wystarczyło, by model z pierwszego miejsca spadł niżej.
Nawet bardziej profesjonalne platformy, korzystające z opinii ekspertów, nie są bezpieczne – tam wystarczyło usunąć 3% danych, by zmienić lidera.
Skąd ten błąd?
Analiza MIT sugeruje, że za te drastyczne skoki często odpowiadają zwykłe błędy ludzkie. Ktoś się pomylił, kliknął nie to, co chciał, albo po prostu nie zrozumiał odpowiedzi modelu. Problem polega na tym, że przy obecnej konstrukcji algorytmów rankingowych, te „szumy” i pojedyncze pomyłki mają nieproporcjonalnie duży wpływ na wynik końcowy.
Zamiast solidnej statystyki, otrzymujemy ranking, którym może zachwiać jeden roztargniony użytkownik.
Nie ufaj tabelkom
Dla nas, użytkowników i przedsiębiorców, to ważna lekcja. Rankingi AI powinny być traktowane jako luźna sugestia, a nie ostateczny dowód jakości. To, że model X jest pierwszy w globalnym rankingu, nie oznacza, że najlepiej poradzi sobie z Twoimi raportami sprzedaży. Każdy podmiot wdrażający jakiś model AI powinien testować go na własnych danych.
Poza tym różnice między topowymi modelami są często tak minimalne, że w rzeczywistości są statystycznie nieistotne. Wreszcie warto mieć na uwadze, że za każdym „punktem” w rankingu stoi człowiek, który mógł mieć gorszy dzień albo po prostu inne preferencje estetyczne co do stylu odpowiedzi AI.
Praca MIT to ważny krok w stronę „odczarowania” magii AI. W 2026 roku nie potrzebujemy więcej modeli – potrzebujemy lepszych sposobów na sprawdzanie, czy te, które już mamy, faktycznie działają zgodnie z oczekiwaniami. Jak podsumowuje prof. Broderick: jeśli topowe miejsce modelu zależy od dwóch kliknięć, to znaczy, że nie mamy do czynienia z nauką, tylko z cyfrową loterią.
Koniec anonimowości zdjęć? Policja kupuje AI, które lokalizuje fotkę z dokładnością do 1 metra






