MacWhisper
Whisper od OpenAI to open source’owy system rozpoznawania mowy. Wykorzystuje on sztuczną inteligencję i deep learning, aby przekształcać mowę ludzką na tekst. Whisper został wytrenowany na ogromnym zbiorze danych, zawierającym nagrania dźwiękowe z transkrypcjami, co pozwala mu zrozumieć wiele języków, akcentów i kontekstów.
Ten artykuł pochodzi z archiwalnego iMagazine 4/2023
MacWhisper to program wykorzystujący możliwości Whisper i dodający mu GUI, aby praca z nim była wygodna pod macOS. Program jest darmowy, ale z ograniczeniami. Płatna wersja Pro kosztuje 16 EUR (w PL brutto) w przypadku licencji do prywatnego wykorzystania.
Testowałem transkrybowanie odcinka nr 400 „Nadgryzionych”, który trwa prawie 4 godziny i pełna operacja na modelu Small zajęła ok. 18 minut. Wyniki nie były też specjalnie zachwycające w przypadku j. pol. (wygląda na to, że z j. ang. lepiej sobie radzi), bo błędy były praktycznie w każdym zdaniu. Model Large jest o niebo lepszy i jedyny, który mogę polecić, pomimo tego, że znacząco wydłuża operację.