Audioteka postawiła na sztuczną inteligencję. Lektora zastąpiła algorytmami

Anna BełcikAnna Bełcik
opublikowano: 2024-01-22 10:50

Na świecie i w Polsce testowane są nowe opcje wykorzystania sztucznej inteligencji. Do testów przystąpiła także Audioteka - powierzyła algorytmom część pracy nad audiobookiem. Właśnie upubliczniła efekty.

Przeczytaj artykuł i dowiedz się:

  • jakie są powody, dla których Audioteka zdecydowała się do produkcji audiobooków zaprząc sztuczną inteligencję
  • czy już teraz jesteśmy świadkami wygasania zawodu lektora
  • jaki jest udział technologicznej spółki ElevenLabs w technologicznym projekcie Audioteki
Posłuchaj
Speaker icon
Zostań subskrybentem
i słuchaj tego oraz wielu innych artykułów w pb.pl
Subskrypcja

Audioteka w minionym roku testowała możliwość zastosowania sztucznej inteligencji (AI) w produkcji audiobooków. Efektem jest pierwszy wypuszczony przez firmę audiobook czytany nie przez lektora, jak dzieje się to tradycyjnie, a przez AI. Na pierwszy ogień poszedł „Gaming na giełdzie” autorstwa Pawła Sugalskiego. Nowy, technologicznie wykreowany audiobook, został już wprowadzony do sprzedaży.

- Idea wygenerowania audiobooka przy użyciu AI wzięła się z chęci eksploracji nowych rozwiązań i dostosowania się do zachodzących zmian. Chcieliśmy przekonać się, jak w praktyce przebiega praca z algorytmem sztucznej inteligencji i jakie wyzwania stawia - skomentował Arkadiusz Seidler, prezes Audioteki, cytowany w komunikacie spółki.

Algorytm w zastępstwie za lektora

Przedstawiciele studia nagraniowego wyjaśnili, że wybrany przez nich audiobook zawiera wiele danych i technicznych pojęć, których czytanie stanowi spore wyzwanie dla AI.

- Mimo że AI skutecznie rozpoznaje język i poprawnie akcentuje większość słów, to miewa trudności z czytaniem liczebników i krótkich wyrazów, które często interpretuje jako skróty. W związku z tym, zadaniem realizatora jest opracowanie tekstu w taki sposób, aby był prawidłowo interpretowany przez AI – proces ten można porównać do programowania. Np. specjalnej transkrypcji wymagał zwrot “gry online” - dopiero zapis “-GRy on'lajn” pozwalał sztucznej inteligencji na odpowiednie przeczytanie – opowiedział Bartosz Sroczyński, kierownik studia nagrań i postprodukcji w Audiotece.

Audioteka ujawniła, że stworzenie "Gamingu na giełdzie" zajęło dwukrotnie więcej czasu niż w przypadku innych nagrań. Czasochłonne okazało się m.in. dopasowywanie tekstu do wymagań AI, korekty błędów interpretacyjnych i intonacyjnych.

Wszystko wskazuje, że AI w studiu produkcyjnym Audioteki zdołała się na dobre zadomowić. Firma deklaruje, że będzie kontynuować pracę nad automatyzacją zadań lektorów. Jeszcze w tym roku planuje stworzyć wespół zespół z AI kolejnego audiobooka. Przedstawiciele firmy podkreślają natomiast, że „nadal priorytetem Audioteki jest nagrywanie treści we współpracy z najlepszymi polskimi lektorami i aktorami“. Treść i fabuła niektórych książek pozwalają na razie jedynie na zastosowanie AI jako technologiczne wsparcie w produkcji.

Zaawansowany syntezator mowy

Audiobook „Gaming na giełdzie” powstał z wykorzystaniem technologii tworzonej przez młodą spółkę ElevenLabs, którą założyli za granicą i rozwijają w skali międzynarodowej Polacy. Firma oferuje zaawansowany syntezator mowy bazujący właśnie na sztucznej inteligencji. Z danych przekazanych przez ElevenLabs w czerwcu 2023 r. wynikało, że około 60 proc. klientów i użytkowników jej narzędzia pochodzi ze Stanów Zjednoczonych, gdzie firma została utworzona. W Polsce aktywna jest spółka zależna, w kraju zlokalizowane jest także centrum danych.

„Wykorzystanie cyfrowych narzędzi bazujących na sztucznej inteligencji skraca czas i minimalizuje koszty produkcji audio i tworzenia audiobooków. Mamy najbardziej zaawansowane technologicznie narzędzie, które pozwala np. na użycie jednego głosu w tworzeniu materiału audio w ośmiu językach” — w rozmowie z PB deklarował Mateusz Staniszewski, współzałożyciel ElevenLabs.

– Współpraca Audioteki z ElevenLabs w zakresie wykorzystania AI do produkcji audiobooków jest nie tylko krokiem ku przyszłości technologicznej, ale także świadomą inwestycją w rozwój nowoczesnych narzędzi interpretacji i przetwarzania języka naturalnego. Nasze działania koncentrują się na eksploracji możliwości AI, co przyczynia się do ewolucji zarówno technologii, jak i procesów produkcyjnych. Podczas gdy bezpośrednie korzyści finansowe i oszczędność czasu są na tym etapie drugorzędne, nasz nacisk na innowacje i współtworzenie zaawansowanych rozwiązań AI ma nie tylko wartość eksperymentalną, ale także strategiczną - otwiera nowe perspektywy dla przyszłości branży audiobooków - zapewnia Bartosz Sroczyński.