Audioteka w minionym roku testowała możliwość zastosowania sztucznej inteligencji (AI) w produkcji audiobooków. Efektem jest pierwszy wypuszczony przez firmę audiobook czytany nie przez lektora, jak dzieje się to tradycyjnie, a przez AI. Na pierwszy ogień poszedł „Gaming na giełdzie” autorstwa Pawła Sugalskiego. Nowy, technologicznie wykreowany audiobook, został już wprowadzony do sprzedaży.
- Idea wygenerowania audiobooka przy użyciu AI wzięła się z chęci eksploracji nowych rozwiązań i dostosowania się do zachodzących zmian. Chcieliśmy przekonać się, jak w praktyce przebiega praca z algorytmem sztucznej inteligencji i jakie wyzwania stawia - skomentował Arkadiusz Seidler, prezes Audioteki, cytowany w komunikacie spółki.
Algorytm w zastępstwie za lektora
Przedstawiciele studia nagraniowego wyjaśnili, że wybrany przez nich audiobook zawiera wiele danych i technicznych pojęć, których czytanie stanowi spore wyzwanie dla AI.
- Mimo że AI skutecznie rozpoznaje język i poprawnie akcentuje większość słów, to miewa trudności z czytaniem liczebników i krótkich wyrazów, które często interpretuje jako skróty. W związku z tym, zadaniem realizatora jest opracowanie tekstu w taki sposób, aby był prawidłowo interpretowany przez AI – proces ten można porównać do programowania. Np. specjalnej transkrypcji wymagał zwrot “gry online” - dopiero zapis “-GRy on'lajn” pozwalał sztucznej inteligencji na odpowiednie przeczytanie – opowiedział Bartosz Sroczyński, kierownik studia nagrań i postprodukcji w Audiotece.
Audioteka ujawniła, że stworzenie "Gamingu na giełdzie" zajęło dwukrotnie więcej czasu niż w przypadku innych nagrań. Czasochłonne okazało się m.in. dopasowywanie tekstu do wymagań AI, korekty błędów interpretacyjnych i intonacyjnych.
Wszystko wskazuje, że AI w studiu produkcyjnym Audioteki zdołała się na dobre zadomowić. Firma deklaruje, że będzie kontynuować pracę nad automatyzacją zadań lektorów. Jeszcze w tym roku planuje stworzyć wespół zespół z AI kolejnego audiobooka. Przedstawiciele firmy podkreślają natomiast, że „nadal priorytetem Audioteki jest nagrywanie treści we współpracy z najlepszymi polskimi lektorami i aktorami“. Treść i fabuła niektórych książek pozwalają na razie jedynie na zastosowanie AI jako technologiczne wsparcie w produkcji.
Zaawansowany syntezator mowy
Audiobook „Gaming na giełdzie” powstał z wykorzystaniem technologii tworzonej przez młodą spółkę ElevenLabs, którą założyli za granicą i rozwijają w skali międzynarodowej Polacy. Firma oferuje zaawansowany syntezator mowy bazujący właśnie na sztucznej inteligencji. Z danych przekazanych przez ElevenLabs w czerwcu 2023 r. wynikało, że około 60 proc. klientów i użytkowników jej narzędzia pochodzi ze Stanów Zjednoczonych, gdzie firma została utworzona. W Polsce aktywna jest spółka zależna, w kraju zlokalizowane jest także centrum danych.
„Wykorzystanie cyfrowych narzędzi bazujących na sztucznej inteligencji skraca czas i minimalizuje koszty produkcji audio i tworzenia audiobooków. Mamy najbardziej zaawansowane technologicznie narzędzie, które pozwala np. na użycie jednego głosu w tworzeniu materiału audio w ośmiu językach” — w rozmowie z PB deklarował Mateusz Staniszewski, współzałożyciel ElevenLabs.
– Współpraca Audioteki z ElevenLabs w zakresie wykorzystania AI do produkcji audiobooków jest nie tylko krokiem ku przyszłości technologicznej, ale także świadomą inwestycją w rozwój nowoczesnych narzędzi interpretacji i przetwarzania języka naturalnego. Nasze działania koncentrują się na eksploracji możliwości AI, co przyczynia się do ewolucji zarówno technologii, jak i procesów produkcyjnych. Podczas gdy bezpośrednie korzyści finansowe i oszczędność czasu są na tym etapie drugorzędne, nasz nacisk na innowacje i współtworzenie zaawansowanych rozwiązań AI ma nie tylko wartość eksperymentalną, ale także strategiczną - otwiera nowe perspektywy dla przyszłości branży audiobooków - zapewnia Bartosz Sroczyński.