Mastodon
Zdjęcie okładkowe wpisu AI od Apple ma znacznie przewyższać możliwości ChatGPT 4

AI od Apple ma znacznie przewyższać możliwości ChatGPT 4

0
Dodane: 3 tygodnie temu
fot. Omid Armin (Unsplash)

W niedawno opublikowanym artykule badawczym, guru projektu AI w Apple opisują system, w którym Siri może zrobić znacznie więcej niż tylko próbować rozpoznać, co znajduje się na obrazie. Uważają, że jeden z ich modeli do wykonywania tych testów porównawczych jest lepszy niż ChatGPT 4.0.

artykule (ReALM: Reference Resolution As Language Modeling) Apple opisuje coś, co może zwiększyć użyteczność asystenta głosowego z dużymi modelami językowymi. ReALM bierze pod uwagę zarówno to, co znajduje się na ekranie, jak i aktywne zadania.

Oto fragment artykułu, który opisuje zadanie, o którym mowa:

  • Podmioty na ekranie: Są to jednostki, które są aktualnie wyświetlane na ekranie użytkownika.
  • Podmioty konwersacyjne: Są to jednostki istotne dla konwersacji. Podmioty te mogą pochodzić z poprzedniego zwrotu użytkownika (na przykład, gdy użytkownik mówi „Zadzwoń do mamy, kontakt do mamy byłby odpowiednim podmiotem) lub od wirtualnego asystenta (na przykład, gdy agent dostarcza użytkownikowi listę miejsc lub alarmów do wyboru).
  • Podmioty w tle: Są to odpowiednie jednostki, które pochodzą z procesów w tle, które niekoniecznie muszą być bezpośrednią częścią tego, co użytkownik widzi na ekranie lub interakcji z wirtualnym agentem; na przykład alarm, który zaczyna dzwonić lub muzyka, która gra w tle.

Jeśli to działa dobrze, brzmi to jak przepis na inteligentniejszą i bardziej użyteczną Siri. Apple jest również przekonane o swojej zdolności do wykonania takiego zadania z imponującą szybkością.

Jako kolejny punkt odniesienia uruchamiamy warianty GPT-3.5 (Brown i in., 2020; Ouyang i in., 2022) i GPT-4 (Achiam i in., 2023) ChatGPT, dostępne 24 stycznia 2024 r., zdolne uczyć się na bazie zadanych kontekstów. Podobnie jak w naszej konfiguracji, staramy się, aby oba warianty przewidywały listę podmiotów z dostępnego zestawu.

W przypadku GPT-3.5, który akceptuje tylko tekst, nasze dane wejściowe składają się z samego monitu; jednak w przypadku GPT-4, który ma również możliwość kontekstualizacji na obrazach, dostarczamy systemowi zrzut ekranu do zadania rozdzielczości odniesienia na ekranie, co naszym zdaniem znacznie poprawia wydajność.

Jak więc radzi sobie model Apple?

Wykazujemy dużą poprawę w stosunku do istniejącego systemu o podobnej funkcjonalności w różnych typach odniesień, przy czym nasz najmniejszy model uzyskuje bezwzględny wzrost o ponad 5% w przypadku odniesień ekranowych. Przeprowadzamy również testy porównawcze z GPT-3.5 i GPT-4, przy czym nasz najmniejszy model osiąga wydajność porównywalną z GPT-4, a nasze większe modele znacznie go przewyższają.

Artykuł kończy się częściowo w następujący sposób:

Pokazujemy, że ReaLM przewyższa poprzednie podejścia i działa mniej więcej tak dobrze, jak najnowocześniejszy obecnie LLM, GPT-4, mimo że składa się ze znacznie mniejszej liczby parametrów, nawet w przypadku odniesień ekranowych, mimo że dotyczy wyłącznie domeny tekstowej. Przewyższa również GPT-4 dla specyficznych dla domeny wypowiedzi użytkownika, dzięki czemu ReaLM jest idealnym wyborem dla praktycznego systemu rozwiązywania referencji, który może istnieć na urządzeniu bez uszczerbku dla wydajności.

Co ciekawe model Apple ma być wykonywany w całości na urządzeniu, bez uszczerbku dla wydajności, co jest kluczowe dla Apple.

Krzysztof Kołacz

🎙️ O technologii i nas samych w podcaście oraz newsletterze „Bo czemu nie?”. ☕️ O kawie w podcaście „Kawa. Bo czemu nie?”. 🏃🏻‍♂️ Po godzinach biegam z wdzięczności za życie.

Zapraszamy do dalszej dyskusji na Mastodonie lub Twitterze .