Dziennik Mac Mini M2 Pro (early 2023) i Studio Display – Transkrypcja Nadgryzionych 400 przez Whisper AI
Osoby, które oglądały nagranie 410. odcinka Nadgryzionych w ostatni piątek być może pamiętają, że bliżej początku nagrania włączyłem na Macu Mini transkrypcję odcinka nr 400. Miło mi zgłosić, że transkrypcja się zakończyła w poniedziałek.
Zamiast korzystać z MacWhisper, zdecydowałem się na tę implementację stworzoną przez Georgi Gerganova, która opiera się w całości na C++ i jest zoptymalizowana dla CPU, w tym dla Apple Silicon. Po pierwsze, to darmowe rozwiązanie, w którym mogłem skorzystać z modelu Large bez konieczności płacenia za tę przyjemność (MacWhisper wymaga opłaty, aby korzystać z Large), a po drugie, spodziewałem się, że będzie szybszy. Wadą tej implementacji jest fakt, że działa tylko na plikach WAV w 16 kHz, co oznacza konieczność konwersji pliku i pogorszenia jego jakości, co z kolei powoduje, że mój krystalicznie czysty głos przestaje być krystalicznie czysty (uwaga, sarkazm), a staje się jeszcze bardziej błotnisty niż zwykle. To wszystko prowadzi do gorszej jakości transkrypcji, niż można uzyskać na pliku pełnej jakości.
Transkrypcja pliku trwała kilka dni i nie wiem dokładnie, kiedy się zakończyła, ale jeśli wierzyć datom na plikach, to całość trwała ok. 74 godzin. Biorąc pod uwagę, że transkrybowany plik miał 3:45,17, nie jest to najbardziej wydajne zastosowanie M2 Pro.
Nie pozostało mi zatem nic innego, jak wykupienie MacWhisper w wersji Pro, aby porównać wydajność – wyniki opublikuję, jak je będę miał – ale wygląda na to, że obecnie najwydajniejsza w tym zadaniu jest NVIDIA RTX 4090, która jest o 19,3x szybsza na modelu Large niż M1 Pro i 106x szybsza od tego samego M1 Pro na modelu Tiny (według testów Olivera Wehrensa).
PyTorch powinien Apple Silicon pomóc, ale są jakieś bugi i tak długie transkrypcje nie są możliwe, według moich testów i tego co znalazłem w internetach (ale jeśli wiecie coś, co przegapiłem to odzywajcie się!). Inni z kolei mówią, że CPU w tych zadaniach na Apple Silicon jest szybsze niż GPU…
Wracając jeszcze na moment do MacWhisper – ten app ma niewątpliwą zaletę transkrybowania bezpośrednio URL-a. Obecnie to testuję na odcinku 410 Nadgryzionych i dorzucę transkrypcję do wideo, gdy będzie gotowa.
Transkrypcję, którą wypluł mi Whisper.cpp, po wspomnianych 74 godzinach pracy, znajdziecie tutaj w plaintext lub tutaj w SRT.