Apple przyspiesza syntezę mowy AI bez utraty jakości – nowe badanie

Redakcja iMagazine

Dodane: 5 miesięcy temu
fot. appshunter.io (Unsplash)

Apple wraz z naukowcami z Uniwersytetu w Tel Awiwie opracowało metodę, która przyspiesza generowanie mowy przez AI nawet o 40%, bez pogorszenia zrozumiałości i naturalności dźwięku.

Rozwiązanie nazwane Principled Coarse-Grained Acceptance (PCG) polega na grupowaniu podobnie brzmiących tokenów audio zamiast rygorystycznego sprawdzania każdego pojedynczego dźwięku.

W praktyce model może zaakceptować „wystarczająco podobny” dźwięk, co eliminuje wąskie gardła typowe dla autoregresyjnych systemów text-to-speech. PCG wykorzystuje dwa modele: mniejszy, który szybko proponuje dźwięki, oraz większy, który weryfikuje je na poziomie podobieństwa akustycznego.

Efekt? Wyraźnie szybsza synteza mowy, niski współczynnik błędów, zachowana barwa głosu i wysoka naturalność (4,09/5). Co istotne, technologia działa bez ponownego trenowania modeli i wymaga minimalnych zasobów pamięci, dzięki czemu nadaje się także do urządzeń mobilnych.

Nie bez znaczenia w tym przypadku może być także ostatnie, rekordowe przejęcie przez Apple firmy Q.ai.

Apple wydaje 2 mld dolarów na „niemą mowę”. To największy zakup od czasu Beats i klucz do sterowania przyszłością

AI Apple Apple Research audio AI generowanie mowy iOS LLM modele językowe PCG Siri speculative decoding synteza mowy sztuczna inteligencja technologia Text-to-Speech uczenie maszynowe