Mastodon
Zdjęcie okładkowe wpisu Jak myśli sztuczna inteligencja? Możemy zajrzeć pod maskę wielkich modeli językowych

Jak myśli sztuczna inteligencja? Możemy zajrzeć pod maskę wielkich modeli językowych

0
Dodane: 12 godzin temu

Jak właściwie działa sztuczna inteligencja? W drugiej połowie lipca na platformę Arxiv trafiła praca naukowa, będąca próbą rzetelnej odpowiedzi na to pytanie w kontekście najbardziej interesujących nas dziś typów AI: LLM-ów, czyli dużych modeli językowych.

Nie będę tutaj wyjaśniał czym są przedmiotowe modele AI. Korzystamy z nich codziennie, zadając pytania o przepisy kulinarne, prosząc o pomoc w pisaniu maili czy generując obrazy na media społecznościowe. Wielkie Modele Językowe (LLM), takie jak te napędzające ChatGPT, Gemini, Claude, Copilot itp. stały się częścią naszej rzeczywistości. Ale czy kiedykolwiek zastanawialiście się, co tak naprawdę dzieje się „pod maską”? Jak maszyna uczy się rozumieć, wnioskować i tworzyć? Absolutnie nie twierdzę, że to wiem, ale lektura 277 stronicowego dokumentu (dodam: niełatwa) pozwala uchylić rąbka tajemnicy. Na podstawie obszernej pracy naukowej „Foundations of Large Language Models”  możemy zajrzeć do cyfrowego mózgu i przynajmniej próbować zrozumieć jego największe sekrety. Tutaj jedynie przekażę wam to, co udało mi się wyłuskać z tej pracy. Czy może raczej – to będzie bardziej uczciwe postawienie sprawy – co udało mi się z niej zrozumieć.

Fundament wszystkiego: jak nauczyć maszynę, czytając cały internet?

Wbrew pozorom, u podstaw działania LLM nie leży skomplikowana magia. Działanie współczesnych modeli takich jak ChatGPT wielu ludzi wręcz onieśmiela, ale fundamentem jest zadziwiająco prosta zasada. Zanim model nauczy się pisać wiersze czy programować, przechodzi przez proces zwany treningiem wstępnym (pre-training). Polega on na „karmieniu” go niewyobrażalną ilością tekstu – w praktyce znaczną częścią publicznie dostępnego internetu, książek i artykułów.

Jego zadanie w tej fazie jest banalne: przewidzieć następne słowo w zdaniu lub uzupełnić luki. Wyobraźmy sobie zdanie: „Wczesny ranek, a ptaszek…”. Model musi nauczyć się, że najbardziej prawdopodobnym słowem jest „śpiewa”. Robiąc to biliony razy na przeróżnych tekstach, zaczyna samodzielnie odkrywać reguły gramatyki, związki frazeologiczne, a nawet, w pewnym sensie, zdobywać wiedzę o świecie. To tzw. samonadzorowane uczenie (self-supervised learning) – model sam tworzy sobie zadania i sam sprawdza, czy odpowiedział poprawnie, bez potrzeby angażowania człowieka na tym etapie. To właśnie ta faza jest odpowiedzialna za jego wszechstronną wiedzę.

Sztuka rozmowy, czyli jak „szepnąć” AI, czego od niej chcemy

Gdy model posiadł już ogólną wiedzę, zaczyna się najciekawsza część – interakcja. Nie musimy go programować od nowa do każdego zadania. Zamiast tego używamy promptów, czyli tekstowych poleceń. I tu zaczyna się prawdziwa inżynieria. Okazuje się, że sposób, w jaki formułujemy polecenie, ma kolosalny wpływ na jakość odpowiedzi. Możemy działać na kilka sposobów:

  • Zero-shot learning: po prostu wydajemy polecenie, nie dając żadnych przykładów. Np. „Przetłumacz zdanie <tu-zdanie> na angielski”. Model musi polegać wyłącznie na swojej wiedzy z treningu wstępnego.
  • One-shot/Few-shot learning: dajemy modelowi jeden lub kilka przykładów, jak ma wykonać zadanie. Np. „Polski: kot -> Angielski: cat. Polski: pies ->?”. To tzw. uczenie w kontekście (in-context learning), gdzie model uczy się „w locie” z dostarczonych mu wzorców, bez zmiany swoich wewnętrznych parametrów.

Prawdziwa magia zaczyna się jednak, gdy prosimy model o coś więcej niż tylko odpowiedź.

Jak prosta fraza budzi w AI rozum?

Jednym z najbardziej zdumiewających odkryć w badaniach nad LLM jest tzw. promptowanie łańcuchem myśli (Chain-of-Thought, CoT). Okazało się, że jeśli zmagamy się ze złożonym problemem, np. zadaniem matematycznym, a model podaje złą odpowiedź, wystarczy dodać do polecenia prostą frazę:

„Pomyślmy krok po kroku”.

Ta instrukcja sprawia, że model, zamiast od razu generować finalny wynik, najpierw rozpisuje swój proces myślowy, dzieląc problem na mniejsze etapy, a dopiero potem dochodzi do konkluzji. Taka dekompozycja zadania drastycznie zwiększa jego skuteczność w zadaniach wymagających logicznego wnioskowania. To pokazuje, że wewnątrz tych złożonych sieci neuronowych drzemią zdolności do rozumowania, które można aktywować odpowiednio sformułowanym poleceniem. Dziś praktycznie wszystkie duże LLM-y są zdolne do takiego sposobu „myślenia”.

Kompas moralny, czyli jak człowiek uczy AI, co jest dobre, a co złe

Sama wiedza i umiejętność rozumowania to nie wszystko. Model wytrenowany na internecie mógłby przecież generować treści szkodliwe. I z całą pewnością by to robił, wystarczy spojrzeć na historyczne, opłakane w skutkach próby „uwolnienia” algorytmów AI w internecie. Pamiętacie bota „Tay” Microsoftu? To był rok 2016! Uwolnienie go na dobę uczyniło z niego odbicie najgorszych naszych uprzedzeń. Tyle, że to nie wina bota, a nas samych. W każdym razie źle wytrenowany model nie tylko będzie generować treści szkodliwe, ale też stronnicze, czy po prostu nieprawdziwe. I nie chodzi tu o tzw. halucynacje, ale ogólnie o wadliwe wyniki.

Dlatego kluczowym etapem po treningu jest dostosowywanie (alignment). Chodzi o to, by nauczyć model nie tylko, jak odpowiadać, ale też co jest odpowiedzią pożądaną z ludzkiego punktu widzenia.

Najpopularniejszą metodą jest tu uczenie ze wzmocnieniem z ludzką informacją zwrotną (Reinforcement Learning from Human Feedback, RLHF). Oto jak w uproszczeniu ten proces wygląda.

Na to samo pytanie model generuje kilka różnych odpowiedzi. Następnie człowiek (nie byle kto, ale specjalnie w tym celu zatrudniony specjalista) szereguje te odpowiedzi od najlepszej do najgorszej. Wreszcie na podstawie tysięcy takich rankingów trenowany jest osobny, mniejszy model, tzw. model nagrody (reward model). Uczy się on przewidywać, którą odpowiedź człowiek oceniłby najwyżej.

Główny LLM jest następnie dalej trenowany, ale tym razem jego celem jest maksymalizacja „nagrody” od modelu nagrody. W praktyce uczy się generować odpowiedzi, które spodobałyby się człowiekowi.

To właśnie dzięki temu procesowi chatboty unikają odpowiedzi na szkodliwe pytania i starają się być pomocne i bezstronne.

Więcej, szybciej, mądrzej: skalowanie i sprytne sztuczki

Badacze szybko odkryli tzw. prawa skalowania (scaling laws). Mówią one, że im większy jest model (więcej parametrów) i im więcej danych przetworzy, tym staje się lepszy w sposób przewidywalny. Co więcej, po przekroczeniu pewnej skali, w modelach pojawiają się tzw. zdolności wyłaniające się (emergent abilities) – umiejętności, których nie dało się przewidzieć i do których nie były bezpośrednio trenowane, jak np. wspomniane wcześniej rozumowanie krok po kroku.

Jednak większe modele to wolniejsze działanie. Dlatego inżynierowie wymyślają sprytne sztuczki, by przyspieszyć generowanie odpowiedzi. Jedną z nich jest dekodowanie spekulatywne. Wykorzystuje się dwa modele: mały i bardzo szybki „model roboczy” oraz duży i dokładny „model weryfikujący”. Mały model szybko generuje „na brudno” kilka kolejnych słów. Następnie duży model weryfikuje je wszystkie naraz, w jednym kroku. Jeśli się zgadzają, są akceptowane. Jeśli nie, duży model poprawia ostatnie słowo i proces rusza od nowa. To jak szybkie pisanie na klawiaturze i późniejsza korekta – znacznie wydajniejsze niż pisanie każdego słowa z namysłem.

Podsumowanie

Wielkie Modele Językowe to fascynująca technologia, która, mimo że wydaje się skomplikowana, opiera się na kilku kluczowych i zrozumiałych koncepcjach. Od prostego przewidywania słów, przez sztukę zadawania pytań, po uczenie się ludzkich wartości – każdy z tych etapów dokłada cegiełkę do budowy narzędzia, które już dziś zmienia nasz świat. I choć wciąż jesteśmy na wczesnym etapie tworzenia prawdziwie inteligentnych systemów, zajrzenie pod maskę pozwala docenić, jak daleką drogę już przebyliśmy. Jeżeli jesteście zainteresowani pełnym tekstem wspomnianej pracy, przekazuję link, tylko otwórzcie umysł i zarezerwujcie dużo czasu („Foundations of Large Language Models”; 277 stron, PDF, język angielski).

Zapraszamy do dalszej dyskusji na Mastodonie lub Twitterze .