Google wprowadza Gemini 3.5 Live Translate ze wsparciem dla ponad 70 języków

Agnieszka Serafinowicz

Dodane: 2 miesiące temu

Tłumaczenie na żywo bez krępujących pauz i sztucznego brzmienia wkracza na nowy poziom. Google oficjalnie udostępniło Gemini 3.5 Live Translate – swój najnowszy model audio.

Technologia potrafi tłumaczyć rozmowy niemal w czasie rzeczywistym, automatycznie rozpoznając ponad 70 języków i zachowując naturalną intonację mówiącego.

Wydany kilka dni temu nowy model językowy od Google różni się od dotychczasowych rozwiązań (takich jak tradycyjne, turowe systemy tłumaczeń) swoim podejściem do przetwarzania dźwięku. Zamiast czekać na zakończenie wypowiedzi przez mówcę, Gemini 3.5 Live Translate generuje ścieżkę dźwiękową w sposób ciągły.

Jak działa nowe tłumaczenie na żywo?

Algorytm nieustannie analizuje strumień audio, starając się zbalansować czas oczekiwania na szerszy kontekst zdania z koniecznością natychmiastowego dostarczenia tłumaczenia. W efekcie opóźnienie wynosi zaledwie kilka sekund, co pozwala na płynną, symultaniczną konwersację.

Co więcej, model automatycznie wykrywa język spośród ponad 70 dostępnych opcji i potrafi odwzorować cechy szczególne oryginalnego głosu, takie jak tempo mówienia, wysokość dźwięku oraz emocjonalną intonację. Jak zapewnia producent, algorytm radzi sobie również w trudnych warunkach akustycznych, skutecznie filtrując hałas z otoczenia.

Gdzie skorzystamy z Gemini 3.5 Live Translate?

Google rozpoczęło wdrażanie nowej funkcji w całym swoim ekosystemie:

Google Translate (Android i iOS): funkcja tłumaczenia na żywo jest już wdrażana u użytkowników smartfonów. Najciekawszą nowością jest opcja „listening mode” (tryb słuchania) dla systemu Android. Pozwala ona na przyłożenie telefonu do ucha niczym podczas standardowej rozmowy i słuchanie tłumaczenia bezpośrednio przez głośnik słuchawki, bez konieczności używania zewnętrznych słuchawek czy puszczania dźwięku w trybie głośnomówiącym.
Google Meet: Aplikacja do wideokonferencji wkracza w nową erę. Dotychczasowy limit pięciu obsługiwanych języków został zniesiony – teraz system oferuje pełne wsparcie dla 70 języków. Co istotne, znika konieczność tłumaczenia wyłącznie z lub na język angielski. Platforma obsługuje teraz symultaniczne tłumaczenie w ponad 2000 kombinacjach językowych. Funkcja jest obecnie w fazie prywatnych testów dla klientów korporacyjnych Google Workspace.
Dla deweloperów: model został udostępniony poprzez Gemini Live API oraz Google AI Studio, co otwiera drogę do integracji tego rozwiązania w aplikacjach firm trzecich. Wśród pierwszych testerów znalazła się między innymi firma Grab (azjatycki odpowiednik Ubera), która wykorzystuje nowy model do komunikacji głosowej między kierowcami a zagranicznymi pasażerami.

Warto również zaznaczyć, że wszystkie wygenerowane przez Gemini 3.5 Live Translate ścieżki dźwiękowe będą automatycznie oznaczane niewidocznym znakiem wodnym SynthID. Ma to na celu zachowanie transparentności i ułatwienie identyfikacji treści wygenerowanych przez sztuczną inteligencję.

Ciemna strona sztucznej inteligencji. Google pozywa grupę, która użyła modelu Gemini do kradzieży milionów dolarów