Google prezentuje nowe, natywne możliwości audio w modelach Gemini 2.5
Google ogłosiło wprowadzenie zaawansowanych, natywnych możliwości audio w swoich modelach sztucznej inteligencji Gemini 2.5 Pro i Flash.
Nowe funkcje, które obejmują dialog w czasie rzeczywistym i kontrolowaną generację mowy (TTS), mają na celu uczynienie interakcji z AI bardziej naturalnymi i wszechstronnymi.
W przeciwieństwie do tradycyjnych systemów, które często przetwarzają mowę na tekst i z powrotem, nowe modele Gemini zostały zbudowane od podstaw tak, aby natywnie rozumieć i generować treści audio. Ma to pozwolić na bardziej płynne i ekspresyjne konwersacje. Technologie te są już wykorzystywane w takich produktach jak Audio Overviews w NotebookLM czy w ramach projektu Astra.
Dialog w czasie rzeczywistym
Nowe możliwości dialogowe w Gemini 2.5 mają na celu naśladowanie naturalnej ludzkiej rozmowy, z uwzględnieniem tonu, akcentu i rytmu. Kluczowe cechy tej funkcji to:
- Naturalna konwersacja: interakcje głosowe mają charakteryzować się wysoką jakością, odpowiednią ekspresją i niskimi opóźnieniami, co pozwala na płynną wymianę zdań.
- Kontrola stylu: użytkownicy, za pomocą poleceń w języku naturalnym, mogą dostosowywać styl wypowiedzi modelu, nadając mu określone akcenty, tony czy ekspresje, a nawet nakazać mu szept.
- Integracja z narzędziami: Gemini 2.5 może w trakcie rozmowy korzystać z zewnętrznych narzędzi, takich jak wyszukiwarka Google czy niestandardowe narzędzia stworzone przez deweloperów, co ma zwiększyć praktyczność konwersacji.
- Świadomość kontekstu: system został wytrenowany, aby potrafił rozróżniać i ignorować mowę w tle oraz inne nieistotne dźwięki, dzięki czemu wie, kiedy nie powinien się odzywać.
- Rozumienie audio-wideo: dzięki natywnemu wsparciu dla streamingu audio i wideo, model może prowadzić rozmowę na temat tego, co widzi w przekazie wideo lub na udostępnionym ekranie.
Kontrolowana generacja mowy (TTS)
Google rozwija również technologię zamiany tekstu na mowę (TTS; text-to-speech), która teraz oferuje nie tylko naturalne brzmienie, ale również precyzyjną kontrolę nad generowanym dźwiękiem. Użytkownicy mogą generować zarówno krótkie fragmenty, jak i długie formy narracyjne, dokładnie określając styl, ton i ekspresję emocjonalną za pomocą poleceń w języku naturalnym. Funkcja ta pozwala m.in. na tworzenie ekspresyjnych odczytów poezji czy wiadomości, kontrolę tempa i precyzji wymowy oraz generowanie dialogów z udziałem dwóch mówców.
Bezpieczeństwo i dostępność dla deweloperów
Google podkreśla, że na każdym etapie rozwoju nowych funkcji audio przeprowadzono ocenę potencjalnych ryzyk i wdrożono środki zaradcze, w tym rygorystyczne testy bezpieczeństwa. Wszystkie wygenerowane przez modele pliki audio są oznaczane za pomocą technologii cyfrowego znaku wodnego SynthID, aby zapewnić ich identyfikowalność jako treści stworzonych przez AI.
Nowe możliwości audio są udostępniane deweloperom za pośrednictwem interfejsu Gemini API w Google AI Studio oraz na platformie Vertex AI. Mogą oni rozpocząć testowanie dialogu w czasie rzeczywistym z Gemini 2.5 Flash oraz kontrolowanej generacji mowy (TTS) z modelami Gemini 2.5 Pro i Flash. Poniżej wideo, jak to brzmi w praktyce: