Apple publikuje rodzinę wydajnych modeli językowych open source
Tuż przed debiutem iOS 18 na WWDC w czerwcu tego roku, Apple udostępniło rodzinę dużych modeli językowych o otwartym kodzie źródłowym. Nazwali je OpenELM.
W swoich testach Apple twierdzi, że OpenELM oferuje podobną wydajność do innych otwartych modeli językowych, ale przy mniejszej ilości danych szkoleniowych.
Firma wyjaśnia:
Udostępniamy OpenELM, najnowocześniejszy otwarty model językowy. OpenELM wykorzystuje strategię skalowania warstwowego, aby efektywnie alokować parametry w każdej warstwie modelu transformatorowego, co prowadzi do zwiększenia dokładności. Na przykład, przy budżecie parametrów wynoszącym około miliarda parametrów, OpenELM wykazuje 2,36% poprawę dokładności w porównaniu do OLMo, wymagając jednocześnie 2 razy mniej tokenów do wstępnego uczenia.
Odbiegając od wcześniejszych praktyk, które zapewniają jedynie wagi modelu i kod wnioskowania oraz wstępne szkolenie na prywatnych zbiorach danych, nasza wersja zawiera kompletne ramy szkolenia i oceny modelu językowego na publicznie dostępnych zbiorach danych, w tym dzienniki szkoleniowe, wiele punktów kontrolnych i konfiguracje wstępnego szkolenia. Udostępniamy również kod do konwersji modeli do biblioteki MLX w celu wnioskowania i dostrajania na urządzeniach Apple. Ta kompleksowa wersja ma na celu wzmocnienie i wzmocnienie otwartej społeczności badawczej, torując drogę dla przyszłych otwartych przedsięwzięć badawczych.
Więcej szczegółów można znaleźć tutaj:
- OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework
- Apple’s OpenELM database on Hugging Face