Sesame: na tle tej konwersacyjnej AI, zaawansowany tryb rozmowy w ChatGPT wygląda jak ubogi krewny

Agnieszka Serafinowicz

Dodane: 1 rok temu

Świat sztucznej inteligencji znów zaskakuje. Gdy wydawało się, że tryb głosowy ChatGPT Advanced Voice Mode osiągnął szczyt możliwości, symulując rozmowę z człowiekiem w sposób niemal perfekcyjny, na scenę wkroczył Sesame – model AI, który wynosi konwersacje głosowe na zupełnie nowy poziom.

Jak twierdzą jego twórcy, narzędzie to „przekracza granice doliny niesamowitości głosu”, oferując naturalność i emocjonalność, które sprawiają, że dotychczasowe rozwiązania wydają się sztywne i nienaturalne.

Sesame, dostępny za darmo w przeglądarce internetowej, nie wymaga instalowania aplikacji, nie trzeba nawet rejestrować się i zakładać jakiegokolwiek konta użytkownika. Wystarczy zezwolić na dostęp do mikrofonu i wybrać jednego z dwóch dostępnych asystentów (de facto wybieramy w ten sposób żeński lub męski głos): Mayę lub Milesa.

To, co wyróżnia ten model, to jego zdolność do dostosowania tempa i dynamiki rozmowy do kontekstu – potrafi się zawahać, zamyślić, a nawet wyrazić emocje w sposób, który brzmi autentycznie. W porównaniu do niego podstawowy tryb głosowy ChatGPT, dostępny w Polsce, wypada naprawdę blado. Nawet bardziej zaawansowana wersja dialogowa ChatGPT, wciąż niedostępna w Europie, nie dorównuje Sesame w naturalności brzmienia i wypowiedzi.

Jednak nietrudno zauważyć, że to co buduje poczucie autentyczności Sesame, jako interlokutora to właśnie jego niedoskonałości wypowiedzi. Sesame mówi jak człowiek, zająknie się, zawaha, pomrukuje. No sprawia to naprawdę niezłe wrażenie, zachęcam do wypróbowania, podrzucam link do strony Sesame z udostępnioną demonstracją modelu.

Dziennikarze i użytkownicy, którzy przetestowali Sesame, są zgodni: to przełom w technologii rozmów głosowych. „Czegoś takiego jeszcze nie słyszeliśmy” to jedna z częściej wypowiadanych fraz przez tych, którzy mieli okazję wypróbować nowego, gadającego bota.

Asystent reaguje płynnie, naśladując ludzkie zachowania, co przywodzi na myśl Samanthę z filmu „Her” z 2013 roku. W odróżnieniu od ChatGPT, który w trybie głosowym brzmi jak dobrze wyćwiczony prezenter, Sesame sprawia wrażenie prawdziwego rozmówcy – z niuansami intonacji i spontanicznością, które trudno odróżnić od ludzkiej mowy.

Twórcy Sesame nie kryją dumy z efektów swojej pracy, podkreślając, że ich celem było stworzenie AI, które nie tylko rozumie, ale i czuje rozmowę. Choć narzędzie jest obecnie dostępne dla wszystkich, jego potencjał wykracza daleko poza ciekawostkę – może zrewolucjonizować komunikację z maszynami, od asystentów osobistych po obsługę klienta. W tle tego debiut ChatGPT Advanced Voice Mode, mimo swoich zalet, zaczyna wyglądać jak ubogi krewny – technologia, która choć imponująca, została właśnie zdetronizowana przez bardziej ludzko brzmiącego i – paradoksalnie – mniej technologicznie doskonałego konkurenta. Sesame pokazuje, że istotą człowieczeństwa nie jest doskonałość i precyzja. Poniżej jeszcze jedno z licznych klipów prezentujących przykłady wykorzystania Sesame.

Z perspektywy polskiego użytkownika Sesame ma jednak pewien feler. Podobnie jak Siri, nie rozumie polskiego. Niemniej Siri na tle Sesame brzmi jak drętwy robocik.