Apple buduje sztuczną inteligencję, która „klika” za nas. Ferret-UI Lite to mały gigant, który zmieni iPhone’y

Dariusz Hałas

Dodane: 3 godziny temu

Podczas gdy giganci technologiczni ścigają się na tworzenie coraz potężniejszych, chmurowych modeli językowych pożerających gigawaty energii, Apple po cichu realizuje zupełnie inną strategię.

Najnowsza praca badawcza inżynierów z Cupertino ujawnia Ferret-UI Lite – miniaturowego agenta AI, który uczy się rozumieć i obsługiwać interfejsy aplikacji na naszych urządzeniach. Udowadnia przy tym, że w świecie sztucznej inteligencji spryt często wygrywa z brutalną siłą obliczeniową.

Jeżeli zastanawiacie się, jak docelowo ma wyglądać w pełni rozwinięte Apple Intelligence, praca naukowa zatytułowana „Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents” daje nam najlepszą możliwą odpowiedź. Wizja Apple nie opiera się na wszechwiedzącym chatbocie, z którym ucinamy sobie filozoficzne pogawędki. Ich celem jest stworzenie asystenta, który fizycznie widzi ekran naszego telefonu i potrafi za nas „klikać” po aplikacjach, by realizować konkretne zadania. Co najważniejsze – ma to robić lokalnie, bez wysyłania zrzutów naszego ekranu na zewnętrzne serwery.

Dawid kontra Goliat: 3 miliardy parametrów wystarczą

Zbudowanie agenta GUI (Graphic User Interface), czyli modelu, który rozumie układ przycisków, suwaków i ikon na ekranie, wymaga zazwyczaj potężnych mocy obliczeniowych. Modele serwerowe doskonale radzą sobie z planowaniem wieloetapowym, ale są zbyt ciężkie, by uruchomić je na smartfonie.

Inżynierowie Apple poszli pod prąd. Ich model Ferret-UI Lite posiada „zaledwie” 3 miliardy parametrów. W świecie, w którym flagowe modele LLM operują na setkach miliardów parametrów, to waga wręcz piórkowa. Mimo to, jak udowadniają testy, ten kompaktowy system potrafi dorównać, a nierzadko przewyższyć modele nawet 24-krotnie większe.

W rygorystycznych benchmarkach oceniających tzw. GUI grounding (czyli zdolność modelu do precyzyjnego zlokalizowania konkretnego elementu interfejsu na podstawie polecenia tekstowego) Ferret-UI Lite osiąga fenomenalne wyniki: 91,6% w teście ScreenSpot-V2 oraz 53,3% w bardziej wymagającym ScreenSpot-Pro, wyprzedzając tym samym znacznie większe, 7-miliardowe modele konkurencji.

Sztuczka z „mrużeniem oczu”, czyli potęga operacji Zoom-in

Jak tak mały model radzi sobie z analizą skomplikowanych ekranów pełnych drobnego tekstu i ikon? Apple zastosowało genialną w swojej prostocie technikę optymalizacyjną, która naśladuje… ludzki wzrok.

Małe modele mają bardzo ograniczoną pojemność okna kontekstowego dla obrazu (nie potrafią przetworzyć wielu tokenów wizualnych naraz w wysokiej rozdzielczości). Zamiast zmuszać Ferret-UI Lite do analizy całego, ostrego jak brzytwa ekranu, badacze wdrożyli technikę przybliżania w czasie rzeczywistym (inference-time cropping and zooming-in).

Mechanizm jest prosty: model dokonuje najpierw szybkiej, zgrubnej oceny całego ekranu, wskazując przybliżony obszar, w którym może znajdować się szukany element. Następnie system kadruje ten wycinek, „przybliża” go i dokonuje ostatecznej, wysoce precyzyjnej analizy. To pozwala zaoszczędzić potężne zasoby obliczeniowe, zachowując jednocześnie niesamowitą dokładność.

AI, które samo generuje dla siebie dane

Kolejnym wyzwaniem przy tworzeniu małych, ale inteligentnych modeli, jest brak odpowiednich danych treningowych. Ręczne adnotowanie milionów zrzutów ekranu i opisywanie każdego kliknięcia przez ludzi to proces żmudny i niezwykle drogi.

Apple rozwiązało ten problem, tworząc syntetyczną fabrykę danych. Inżynierowie zbudowali wieloagentowy system, który został wpuszczony do żywych środowisk testowych. Mechanizm ten składał się z kilku podsystemów: jeden wymyślał coraz trudniejsze zadania do wykonania, drugi rozbijał je na kroki, trzeci fizycznie klikał po ekranie, a czwarty (model-krytyk) oceniał całą ścieżkę. Dzięki temu Ferret-UI Lite uczył się na zjawiskach, które występują w prawdziwym życiu: na błędach, awariach aplikacji, przypadkowych kliknięciach i wypracowywaniu strategii naprawczych.

Ironia testów: Apple uczy się na Androidzie

Najbardziej ironicznym – z punktu widzenia wojen platformowych – wnioskiem z pracy badawczej jest fakt, w jakim środowisku Apple testowało swoje rozwiązanie. Ferret-UI Lite był trenowany i poddawany rygorystycznym ewaluacjom m.in. na systemie… Android (korzystając ze środowiska AndroidWorld) oraz w aplikacjach webowych i na komputerach desktopowych (OSWorld).

Wynika to z czystego pragmatyzmu: to właśnie te otwartoźródłowe platformy oferują dziś najlepsze narzędzia do masowego testowania agentów GUI na dużą skalę. Apple nie tworzy więc modelu zamkniętego wyłącznie w złotym rezerwacie iOS, ale uniwersalnego agenta, który rozumie logikę działania interfejsów jako takich. a nie tylko interfejsu iOS/iPadOS.

Uczciwe spojrzenie na ograniczenia

Badacze z Cupertino nie pompują jednak marketingowego balona i uczciwie punktują słabości swojego dzieła. O ile Ferret-UI Lite radzi sobie znakomicie z precyzyjnym lokalizowaniem pojedynczych elementów (zrozumienie, co jest czym na ekranie), o tyle zaawansowana nawigacja i planowanie wieloetapowe wciąż stanowią barierę.

Wskaźnik sukcesu w wykonywaniu złożonych zadań w środowisku AndroidWorld wyniósł 28,0%, a w systemach desktopowych (OSWorld) zaledwie 19,8%. To dobitnie pokazuje klasyczny kompromis: modele uruchamiane lokalnie na urządzeniu (on-device) gwarantują absolutną prywatność i natychmiastowy czas reakcji, ale ze względu na swoją wielkość wciąż mają problemy z abstrakcyjnym ciągiem logicznym (chain-of-thought reasoning), który charakteryzuje duże, chmurowe potwory.

Badania nad Ferret-UI Lite to jednak fundamentalny krok. Apple jasno definiuje swoją wizję przyszłości – to nie jest przyszłość, w której wysyłamy nasze prywatne maile, zdjęcia i zrzuty ekranu do chmury wielkich korporacji, by AI mogło nam pomóc. To przyszłość, w której mały, wysoce zoptymalizowany asystent siedzi zamknięty w procesorze naszego iPhone’a, patrzy na to samo co my i sprawnie wykonuje dla nas cyfrową brudną robotę.