Mastodon
Zdjęcie okładkowe wpisu Nowe badanie Apple: AI, która rozumie interfejsy aplikacji jak człowiek

Nowe badanie Apple: AI, która rozumie interfejsy aplikacji jak człowiek

0
Dodane: 4 godziny temu

Naukowcy z Apple, we współpracy z fińskim Uniwersytetem Aalto, zaprezentowali nowy model sztucznej inteligencji o nazwie ILuvUI.

Jest to model wizualno-językowy (VLM), który został specjalnie wytrenowany, aby rozumieć i logicznie analizować interfejsy użytkownika (UI) aplikacji mobilnych na podstawie zrzutów ekranu i rozmów w języku naturalnym. W testach porównawczych nowy model okazał się lepszy od otwartego oprogramowania, na którym bazował.

Większość obecnych modeli wizualno-językowych jest trenowana na tzw. obrazach naturalnych, takich jak zdjęcia psów czy znaków drogowych. W rezultacie radzą sobie one znacznie gorzej, gdy mają do czynienia ze zorganizowanymi środowiskami, jakimi są interfejsy aplikacji. Jak wyjaśniają badacze, samo analizowanie tekstu w UI nie wystarcza, ponieważ pomija bogatą informację wizualną, a to właśnie połączenie obu tych warstw jest kluczowe dla pełnego zrozumienia kontekstu, podobnie jak u ludzi.

Aby rozwiązać ten problem, zespół naukowców wziął istniejący, otwarty model VLM o nazwie LLaVA i dostroił go specjalnie do analizy interfejsów użytkownika. Kluczowe było wytrenowanie go na syntetycznie wygenerowanym zbiorze danych, który zawierał pary obrazów (zrzutów ekranu) i powiązanych z nimi tekstów. W skład tego zbioru wchodziły m.in. interakcje w formie pytań i odpowiedzi, szczegółowe opisy ekranów, przewidywane wyniki działań, a nawet wieloetapowe plany (np. „jak posłuchać najnowszego odcinka podcastu” lub „jak zmienić ustawienia jasności”). Co istotne, ILuvUI potrafi analizować cały ekran na podstawie prostej komendy tekstowej, bez potrzeby wskazywania przez użytkownika konkretnego obszaru zainteresowania.

Według badaczy Apple, ich podejście może okazać się niezwykle przydatne w dwóch głównych obszarach: dostępności (ułatwienia dostępu dla osób z niepełnosprawnościami) oraz zautomatyzowanego testowania interfejsów aplikacji. W przyszłości prace mogą objąć wykorzystanie większych koderów obrazu i obsługę wyższych rozdzielczości, a także generowanie wyników w formatach (np. JSON), które będą mogły płynnie współpracować z istniejącymi frameworkami UI.

Zapraszamy do dalszej dyskusji na Mastodonie lub Twitterze .