Apple publikuje rodzinę wydajnych modeli językowych open source

Krzysztof Kołacz

Dodane: 2 lata temu
fot. Chirayu (Unsplash)

Tuż przed debiutem iOS 18 na WWDC w czerwcu tego roku, Apple udostępniło rodzinę dużych modeli językowych o otwartym kodzie źródłowym. Nazwali je OpenELM.

W swoich testach Apple twierdzi, że OpenELM oferuje podobną wydajność do innych otwartych modeli językowych, ale przy mniejszej ilości danych szkoleniowych.

Firma wyjaśnia:

Udostępniamy OpenELM, najnowocześniejszy otwarty model językowy. OpenELM wykorzystuje strategię skalowania warstwowego, aby efektywnie alokować parametry w każdej warstwie modelu transformatorowego, co prowadzi do zwiększenia dokładności. Na przykład, przy budżecie parametrów wynoszącym około miliarda parametrów, OpenELM wykazuje 2,36% poprawę dokładności w porównaniu do OLMo, wymagając jednocześnie 2 razy mniej tokenów do wstępnego uczenia.

Odbiegając od wcześniejszych praktyk, które zapewniają jedynie wagi modelu i kod wnioskowania oraz wstępne szkolenie na prywatnych zbiorach danych, nasza wersja zawiera kompletne ramy szkolenia i oceny modelu językowego na publicznie dostępnych zbiorach danych, w tym dzienniki szkoleniowe, wiele punktów kontrolnych i konfiguracje wstępnego szkolenia. Udostępniamy również kod do konwersji modeli do biblioteki MLX w celu wnioskowania i dostrajania na urządzeniach Apple. Ta kompleksowa wersja ma na celu wzmocnienie i wzmocnienie otwartej społeczności badawczej, torując drogę dla przyszłych otwartych przedsięwzięć badawczych.

Więcej szczegółów można znaleźć tutaj:

WWDC 2024 wystartuje 10 czerwca – nie tylko iOS 18

Krzysztof Kołacz

🎙️ O technologii i nas samych w podcaście oraz newsletterze „Bo czemu nie?”. ☕️ O kawie w podcaście „Kawa. Bo czemu nie?”. 🏃🏻‍♂️ Po godzinach biegam z wdzięczności za życie.