Google prezentuje Gemini 2.0

Agnieszka Serafinowicz

Dodane: 1 rok temu

Google poinformowało o wprowadzeniu pierwszego modelu AI z nowej serii Gemini 2.0: eksperymentalną wersję modelu Gemini 2.0 Flash.

Jak możemy przeczytać w oficjalnej notce na blogu Google:

Gemini 2.0 Flash wykorzystuje wszystkie możliwości wersji 1.5 Flash, czyli naszego najpopularniejszego do tej pory modelu dla deweloperów, który oferował jeszcze lepszą wydajność z porównywalnie szybkim czasem odpowiedzi. Model 2.0 Flash osiąga w kluczowych testach nawet lepsze wyniki niż 1.5 Pro i działa dwukrotnie szybciej, a do tego ma nowe funkcje. Poza multimodalnymi danymi wejściowymi, takimi jak obrazy, filmy i dźwięki, model 2.0 Flash obsługuje teraz także multimodalne dane wyjściowe – natywnie generowane obrazy połączone z tekstem oraz sterowalnym dźwiękiem TTS w wielu językach. Może również natywnie wywoływać narzędzia takie jak wyszukiwarka Google, wykonywać kod oraz uruchamiać zewnętrzne funkcje określone przez użytkownika.

W praktyce oznacza to, że Gemini nie tylko będzie w stanie produkować odpowiedzi tekstowe, generować ilustracje czy wideoklipy oraz dźwięk, ale też będzie w stanie przyjmować te wszystkie formy informacji jako dane wejściowe. Firma opublikowała również wyniki benchmarków, porównując Gemini 2.0 Flash z wcześniejszymi modelami Gemini 1.5 Flash 002 i Gemini 1.5 Pro 002. Te pokazują, że nowy model Gemini 2.0 Flash jest lepszy niemal w każdym z testów, jedynym wyjątkiem jest test o nazwie Long Context, w którym co ciekawe, nowy Gemini 2.0 Flash uzyskał wyniki nieznaczne (ale jednak) słabsze od swoich poprzedników.

Willow – najnowszy chip kwantowy Google to imponujące osiągnięcie wykraczające poza czyste obliczenia kwantowe

Kiedy ten nowy model będzie ogólnie dostępny i kto już teraz może z niego korzystać? Oddaję głos przedstawicielom Google:

Model eksperymentalny Gemini 2.0 Flash jest teraz dostępny dla deweloperów w ramach interfejsu Gemini API w Google AI Studio oraz Vertex AI. Wszyscy deweloperzy mogą korzystać z multimodalnych danych wejściowych i generowania tekstu. Partnerzy uczestniczący w programie wcześniejszego dostępu mogą natomiast używać takich funkcji jak zamiana tekstu na mowę czy natywne generowanie obrazów. Ogólne udostępnienie nowego modelu, wraz z dodatkowymi rozmiarami, planujemy na styczeń.

Jednak już teraz, chętni z całego świata mogą również skorzystać ze zoptymalizowanej pod kątem czatu eksperymentalnej wersji modelu 2.0 Flash, wybierając go w menu w aplikacji internetowej na komputerze lub telefonie. Wkrótce będzie on również dostępny w aplikacji mobilnej Gemini.