Rewolucja odwołana? Nowe badania pokazują, że GPT-5.2 i Gemini 3 wciąż nie nadają się do prawdziwej pracy biurowej

Agnieszka Serafinowicz

Dodane: 2 miesiące temu

Dwa lata temu Satya Nadella obiecywał, że AI przejmie „pracę opartą na wiedzy”. Jeśli jednak rozejrzysz się po kancelariach prawnych czy bankach, ludzie nadal są tam niezbędni.

Dlaczego? Nowy raport firmy Mercor brutalnie obnaża słabości najnowszych modeli: w starciu z bałaganem prawdziwej pracy biurowej, sztuczna inteligencja po prostu się gubi.

Test prawdy: APEX-Agents

Zapomnij o proszeniu AI o napisanie wierszyka czy rozwiązanie zagadki logicznej. Firma Mercor stworzyła nowy benchmark o nazwie APEX-Agents, który symuluje realne zadania pracowników umysłowych. Zamiast sterylnych pytań testowych, modele dostały zadania typu: „Sprawdź ten wątek na Slacku, porównaj go z polityką w PDF-ie, zerknij do arkusza kalkulacyjnego i powiedz, czy jesteśmy zgodni z RODO”.

Wyniki? Katastrofa (dla AI)

Rezultaty są kubłem zimnej wody na głowy entuzjastów automatyzacji. Nawet absolutna czołówka rynku – Gemini 3 Flash i GPT-5.2 – nie była w stanie przekroczyć 25% skuteczności.

Gemini 3 Flash: 24% poprawnych odpowiedzi.
GPT-5.2: 23% poprawnych odpowiedzi. Reszta stawki utknęła na poziomie kilkunastu procent. Oznacza to, że w 3 na 4 przypadkach AI albo podawało błędną odpowiedź, albo poddawało się w trakcie zadania.

Dlaczego AI poległo?

Brendan Foody, CEO Mercor, wskazuje na winowajcę: kontekst. Ludzie naturalnie potrafią „skakać” między różnymi źródłami informacji (mail, komunikator, plik tekstowy) i łączyć kropki. Dla AI ten „szum informacyjny” jest paraliżujący. Modele świetnie radzą sobie z jednym, konkretnym zadaniem, ale gubią się, gdy muszą syntetyzować dane z wielu rozproszonych źródeł jednocześnie.

Twój nowy, niekompetentny stażysta

Raport podsumowuje obecny stan technologii celną metaforą: dzisiejsze AI to nie „doświadczony profesjonalista”, który zabierze Ci pracę, ale „nieogarnięty stażysta”, któremu trzeba patrzeć na ręce, bo myli się w 75% przypadków.

Czy to oznacza, że możemy spać spokojnie? Nie do końca. Choć wynik 24% wydaje się śmieszny, warto pamiętać o tempie zmian. Rok temu te same modele osiągały w podobnych testach wyniki rzędu 5-10%. Postęp jest więc wykładniczy. Ale na ten moment – w styczniu 2026 roku – Twoja posada w biurze jest bezpieczna. Przynajmniej dopóki nie nauczą robotów obsługi Slacka.

Portfel w rękach robota. Młodzi dorośli wolą pytać AI o pieniądze niż bankiera