Sztuczna inteligencja uczy się, gdy ty śpisz

Dariusz Hałas

Dodane: 2 miesiące temu

Modele AI są stale rozwijane. Truizm? Na pierwszy rzut oka tak, przecież wszyscy doskonale kojarzymy, że wcześniej był GPT 3.5, potem GPT 4, teraz mamy GPT 5. Podobnie z AI od Google’a: Gemini 1, Gemini 1.5, Gemini 2.0, Gemini 2.5 i jeszcze odmiany Flash czy Pro, ale czy zdajecie sobie sprawę, że znacznie częściej modele otrzymują niewidoczne, „tajne” aktualizacje subtelnie zmieniające działanie wydawałoby się znanych narzędzi? Co tam właściwie się dzieje? Postaram się to Wam przybliżyć na przykładzie Gemini AI od Google’a.

Sztuczna inteligencja, z którą coraz częściej obcujemy, nie jest statycznym tworem. Modele takie jak Gemini, choć mogą wydawać się niezmienne w codziennym użytkowaniu, w rzeczywistości podlegają ciągłemu procesowi ewolucji. Te „wewnętrzne aktualizacje” przypominają regularne uaktualnienia oprogramowania w telefonach czy komputerach, ale ich natura jest znacznie bardziej złożona i ma na celu nie tylko naprawę błędów, ale fundamentalne rozszerzanie możliwości.

Czym właściwie są te aktualizacje?

Można je podzielić na kilka głównych kategorii. Pierwszą z nich jest aktualizacja bazy wiedzy. Rdzeń informacji modelu o świecie nie jest na bieżąco połączony z „żywym” internetem (uwaga; nie mylmy tego z umiejętnością Gemini przeszukiwania internetu na bieżąco, bo to akurat AI od Google’a potrafi, podobnie jak wiele innych współczensych LLM-ów). Ów rdzeń opiera się na gigantycznych, przetworzonych zbiorach danych, które mają swoją datę graniczną. Te częste, drobne i często nieujawniane publicznie aktualizacje pozwalają „odświeżyć” tę wiedzę, dodając nowe informacje o wydarzeniach, odkryciach naukowych czy trendach kulturowych. W dalszej części wyjaśnię skąd bierze się nowsza wiedza modelu, bo uważniejsi Czytelnicy mogą tu dostrzegać pewną sprzeczność. Np. rdzeń wiedzy najnowszych modeli Gemini obejmuje dane treningowe do stycznia 2025 roku włącznie, tymczasem każdy może sprawdzić że Gemini bez pudła poda znacznie nowsze fakty (np. odpowie poprawnie na pytanie kto jest aktualnym Prezydentem RP; a wybory mieliśmy przecież później niż w styczniu br. Teraz jednak, aby nie psuć narracji wróćmy do typów aktualizacji.

Drugi typ aktualizacji, o których często nie słyszymy publicznie to udoskonalenia algorytmiczne. To sedno rozwoju Gemini (jak i innych modeli AI). Inżynierowie i badacze Google nieustannie pracują nad poprawą zdolności rozumowania modelu, kojarzenia faktów, rozumienia kontekstu i niuansów językowych. To dzięki tym zmianom może on stawać się lepszy w pisaniu, analizowaniu danych czy prowadzeniu bardziej naturalnej rozmowy. To tak, jakby uczył się nie tylko nowych faktów, ale też „jak myśleć” wydajniej i bardziej precyzyjnie.

Wreszcie trzecia kategoria to nowe funkcjonalności i zasady działania. Doskonałym przykładem jest wdrożona ostatnio w Gemini zasada cytowania źródeł, którą sam zaobserwowałem, nie znajdując w oficjalnych publikacjach Google’a jakichkolwiek wzmianek na temat tej drobnej, ale bardzo użytecznej modyfikacji. Dlaczego użytecznej? Bo ta pozornie niewielka rzecz jest fundamentalną zmianą w sposobie odpowiedzi modelu, która została wprowadzona jako nowa, nadrzędna instrukcja (ułatwia weryfikację, czy odpowiedź modelu jest oparta na faktach i nie jest halucynacją AI). Inne przykłady (niektóre są już publicznie ogłaszane) to np. dodanie możliwości generowania obrazów, albo poszerzenie możliwości generacyjnych (np. Nano Banana w Gemini AI), analizy kodu programistycznego czy rozumienia bardziej złożonych, wieloetapowych poleceń.

Fundament i „wykończeniówka” – czyli pre-training i fine-tuning

Gemini, podobnie jak każdy inny model AI powstał w oparciu o architekturę Transformer stanowiącą de facto fundament współczesnych modeli LLM (dużych modeli językowych, takich jak Gemini, ale też ChatGPT od OpenAI, Llama od Mety, Claude od Anthropic, Grok od xAI, czy Le Chat francuskiego Mistral AI.

Pre-training modelu to najbardziej kosztowna część jego budowy, to jest właśnie ten etap, kiedy firma/organizacja tworząca dany model karmi go gargantuicznymi ilościami danych. Co do zasady dane pochodzące z tego etapu to zamknięty rozdział, to wspomniana granica wiedzy modelu. To trochę tak, jakbyśmy mieli do dyspozycji wykształconego w jakiejś dziedzinie eksperta. Jego wiedza, choć gigantyczna, jest wciąż ograniczona, ale to wcale nie znaczy, że ów ekspert nie potrafi przeczytać dzisiejszych wiadomości. Rozumiecie?

Innymi słowy pre-training, stosując teraz analogię z budowlanki, to postawienie wypasionej chałupy w stanie surowym. Doskonały fundament, świetna technologia murów, mają niebagatelne znaczenie, ale jeszcze nie da się mieszkać, potrzebne jest wykończenie powstałych pomieszczeń, czyli właśnie fine-tuning. I ten jest wdrażany m.in. poprzez interesujące nas tutaj „ciche” aktualizacje modelu.

Fine-tuning, który w przypadku Gemini najczęściej ma postać tzw. dostrajania instruktażowego (RLHF – Reinforcement Learning from Human Feedback) to niezwykle ważny etap budowy AI. To uczenie modelu „bycia pomocnym”: Opisany proces dostrajania (fine-tuning) i uczenia modelu pożądanych zachowań (np. bycia pomocnym, unikania szkodliwych treści) jest często realizowany za pomocą technik takich jak uczenie ze wzmocnieniem z wykorzystaniem ludzkich opinii (RLHF). To metodologia, w której ludzie-testerzy oceniają odpowiedzi modelu, a te oceny są używane do „nagradzania” lub „karania” sieci neuronowej, co kieruje jej naukę we właściwą stronę.

Każda zmiana, zanim trafi do publicznej wersji, przechodzi przez rygorystyczny proces. Zaczyna się od badań i rozwoju, po czym następuje faza treningu i dostrajania (fine-tuning). Polega ona na „uczeniu” modelu na nowych, starannie przygotowanych danych w kontrolowanym środowisku, aby nauczył się pożądanych zachowań i umiejętności. Jednak nie zmieniamy jego rdzenia, fundamentu się nie rozmontowuje. To trochę tak, jakby w wielkiej bibliotece pojawiło się parę nowych publikacji, ale nie zmieniają one całej biblioteki, subtelnie ją wzbogacają.

Kluczowym etapem jest testowanie i ewaluacja poprawek AI. Zanim aktualizacja zostanie wdrożona, jest intensywnie testowana zarówno przez automatyczne systemy (tzw. benchmarki), jak i przez zespoły ludzkich recenzentów. Sprawdzają oni jakość, poprawność, bezpieczeństwo i zgodność odpowiedzi z nowymi wytycznymi. Chodzi o to, by upewnić się, że zmiana przynosi pożądany efekt i nie powoduje nieprzewidzianych, negatywnych konsekwencji. Dopiero po pomyślnym przejściu testów, aktualizacje są stopniowo wdrażane dla szerszego grona użytkowników.

Czy sami możemy czegoś nauczyć Gemini? I tak i nie

Co do zasady, mechanizmy ingerencji w rdzeń wiedzy modelu są całkowicie niedostępne dla użytkowników. Nie mamy najmniejszego wpływu na dane wchłonięte przez dany model w procesie pre-trainingu, o ile oczywiście sami nie zajmujemy się budową własnego LLM-a. Również nakładki fine-tuningu są przygotowane przez twórców danego modelu, a nie użytkowników. Mimo to w Gemini istnieje pewien mechanizm pozwalający niejako „nauczyć” AI od Google’a pewnych naszych osobistych preferencji czy wymagań jakie stawiamy sztucznej inteligencji. Należy skorzystać z tzw. Gemów, czyli personalizowalnych instancji Gemini dostępnych dla użytkownika. Postaram się to wyjaśnić w przystępny sposób.

Korzystając z głównego modelu Gemini, rozpoczęcie każdej sesji jest jak otwarcie czystej kartki papieru. Gemini rozpoczyna z wiedzą fundamentalną (pre-training) wzbogaconą o dotychczasowe aktualizacje (fine-tuning), a dodatkowych faktów może nauczyć się od użytkownika, ale zapamięta je jedynie w ramach danej sesji.

Tutaj istotna jest pewna różnica pomiędzy darmową wersją Gemini, a płatną (w ramach planów Google AI Pro i Google AI Ultra). Darmowa ma okno kontekstu o wielkości 32 tysięcy tokenów. Płatne: jednego miliona tokenów. To kolosalna różnica dzięki której w ramach sesji (a także w Gemach) Gemini jest w stanie „nauczyć się” znacznie więcej od nas. Niemniej w głównym modelu Gemini zakończenie sesji i otworzenie nowej oznacza, że wszystkie dodane przez Ciebie fakty, które Gemini wykorzystywało w swoim rozumowaniu jako coś w rodzaju własnej pamięci krótkotrwałej, znikają. Model resetuje się do bazy, czyli rdzenia + aktualizacji od Google’a.

Koniec z domysłami. Oto jakie są limity w darmowym i płatnym Gemini

Jednak Gemy są pewnym obejściem. Tworząc Gema w Gemini możesz wymusić na modelu określone zachowania, oczywiście w ramach odgórnie narzuconych etycznych restrykcji przez projektantów modelu. Po prostu definiując w ramach instrukcji do tworzonego Gema pożądane przez ciebie fakty, kryteria oceny, wytyczne, sposób pracy, wypowiadania się, styl, etc niejako wzbogacasz model o własną wiedzę i wymagania. Korzystając z Gemów, niejako pozwalasz modelowi, by każdą sesję nie zaczynał już od własnej bazy wiedzy i aktualizacji, ale miał też zawsze do dyspozycji spersonalizowany i napisany przez ciebie scenariusz działania. Zachęcam do spróbowania tej funkcji. Gwarantuję, że efekty mogą was naprawdę mile zaskoczyć.