Apple przyspiesza syntezę mowy AI bez utraty jakości – nowe badanie
Apple wraz z naukowcami z Uniwersytetu w Tel Awiwie opracowało metodę, która przyspiesza generowanie mowy przez AI nawet o 40%, bez pogorszenia zrozumiałości i naturalności dźwięku.
Rozwiązanie nazwane Principled Coarse-Grained Acceptance (PCG) polega na grupowaniu podobnie brzmiących tokenów audio zamiast rygorystycznego sprawdzania każdego pojedynczego dźwięku.
W praktyce model może zaakceptować „wystarczająco podobny” dźwięk, co eliminuje wąskie gardła typowe dla autoregresyjnych systemów text-to-speech. PCG wykorzystuje dwa modele: mniejszy, który szybko proponuje dźwięki, oraz większy, który weryfikuje je na poziomie podobieństwa akustycznego.
Efekt? Wyraźnie szybsza synteza mowy, niski współczynnik błędów, zachowana barwa głosu i wysoka naturalność (4,09/5). Co istotne, technologia działa bez ponownego trenowania modeli i wymaga minimalnych zasobów pamięci, dzięki czemu nadaje się także do urządzeń mobilnych.
Nie bez znaczenia w tym przypadku może być także ostatnie, rekordowe przejęcie przez Apple firmy Q.ai.






