Cyfrowa wersja siebie? Wkrótce zrobisz ją… smartfonem

opublikowano: 2023-01-05 13:45

Awatar finalistki Top Model – proszę bardzo! Na potrzeby telewizji to tylko kopia twarzy, lecz spółka Mnemosis może stworzyć całą postać cyfrowego bliźniaka. Zaś w przyszłości udostępni aplikację, dzięki której sami będziemy mogli zrobić sobie awatara.

Posłuchaj

Pierwsi na świecie:
Mnemosis zbudował system do skanowania ciała w ruchu (60 razy na sekundę). Dzięki technologii pomiarowej 4D (wymiarowanie 3D oraz ich zmiana w czasie) można uchwycić ruch pojedynczej osoby, grupy ludzi czy nawet zwierzęcia i przenieść je do świata wirtualnego dzięki zautomatyzowanym procesom animowania.
materiały prasowe

W kinach można już oglądać „Avatar: Istota wody”. James Cameron za 350 mln USD nakręcił ponadtrzygodzinną bajkę s.f. Oscarowy reżyser i współscenarzysta głęboko czerpał z historii kolonizowania Ameryki przez złych kowbojów, którzy wypędzali i mordowali dobrych Indian. Na’vi – rdzenni mieszkańcy Pandory, planety, na której rozgrywa się akcja filmu – to trzymetrowi myśliwi i wojownicy o niebieskiej skórze. Ludzie postanowili skolonizować Pandorę. Naukowcy opracowali program Avatar, w którym stworzyli „bliźniaków” rdzennych mieszkańców, by jako górnicy pracowali w pandorańskich kopalniach.

Pierwszy „Avatar” z 2009 r. to najlepiej zarabiający film w historii – przyniósł niemal 3 mld USD zysku. „Avatar: Istota wody” tylko w premierowy weekend zarobił na całym świecie 435 mln USD.

Interakcja z chatbotami

Metoda:
System skanowania to dziesiątki skalibrowanych kamer rozmieszczonych dookoła modela. Synchronicznie, z częstotliwością 60 pomiarów na sekundę, zbierają obraz z wielu kierunków. Wszystko wspomagane jest oświetleniem i nagraniem dźwięku.
materiały prasowe

– Czy widziałem? Obejrzałem pierwszego „Avatara” i wybieram się do kina na „Istotę wody”. Awatary w produkcjach Camerona to najwyższy światowy poziom, technicznie ekstraklasa. Reżyser jest entuzjastą nowych technologii i prekursorem innowacyjnych rozwiązań. Takich jak przenośne rigi kamerowe [stabilizatory naramienne – red.] do filmowania w 3D, technika performance capture [przechwytywanie ruchu aktorów – red.] czy wykorzystany w ostatnim „Avatarze” podwodny system motion capture [przechwytywanie ruchu – red.]. Rezultaty, które obserwujemy na ekranie, są najwyższej jakości. To wynik pracy sztabu utalentowanych artystów, którzy poprawiają materiał w żmudnym i długotrwałym procesie postprodukcji. Tymczasem my, w Mnemosis, pracujemy nad tym, by porównywalny efekt osiągać w procesie automatycznym. I to przy przenoszeniu do cyfrowego świata rzeczywistych ludzkich postaci, co jest jeszcze trudniejsze – twierdzi Krzysztof Lech, menedżer technologiczny start-upu Mnemosis, który tworzy modele 4D na potrzeby branży gamingowej, VFX, filmowej, sportowej.

Z awatarami Camerona można się spotkać w kinie. Za to chatboty atakują nas codziennie niemal z każdej strony. Nie ma nic bardziej irytującego, kiedy zamiast konsultacji z profesjonalistą pojawia się czatbot i mówi: „Cześć, jestem Anna! Dziękuję za dzisiejszą rozmowę!”, a rozmowa nawet się nie rozpoczęła. Traci się czas. Człowiek konsultant już by wdrożył jakąś procedurę, żeby rozwiązać problem, z którym się zgłaszamy.

Albo komunikat: „Cześć. Mam na imię Zofia. Jestem cyfrowym człowiekiem i zdecydowałam się uruchomić własny projekt NFT (tokeny). Obejrzyj wideo, by dowiedzieć się więcej o mnie i projekcie. Jeśli chcesz ze mną porozmawiać, kliknij przycisk Porozmawiajmy i możemy porozmawiać”.

Profesora Roberta Sitnika z Politechniki Warszawskiej, dyrektora ds. technologii Mnemosis, to jednak nie irytuje.

– Nie ma nic złego w tym, że na czacie odzywa się awatar, a nie człowiek. To skraca czas czekania na odpowiedź i jest lepsze niż długie wiszenie na infolinii w oczekiwaniu na rozmowę. Jeszcze lepiej byłoby porozmawiać z kimś, kto ma twarz. Może to być twarz wirtualna, ale przypominająca prawdziwego człowieka, i co więcej, będąca w stanie udzielić nam kontekstowych informacji.

Za to Krzysztof Lech uważa interakcję z chatbotami za irytującą, bo tacy wirtualni asystenci są „niedoskonali, mało inteligentni, z ubogą wiedzą oraz sztuczną, nierealistyczną mimiką twarzy”.

– Te rozwiązania są jednak udoskonalane w imponującym tempie. Choćby ChatGPT [Generative Pre-trained Transformer, technologia generująca naturalnie brzmiące odpowiedzi w czasie rzeczywistym – red.]. W ostatnich tygodniach zachwycają się nią entuzjaści nowych technologii na całym świecie. Ten model, dzięki wytrenowaniu na ogromnej liczbie tekstów, udziela rozsądnych i spójnych odpowiedzi na pytania niemal z każdej dziedziny. Z ChatGPT można rozmawiać, zadając mu pytania na różne tematy. Bot dba o szyk wyrazów w zdaniu, odmienia słowa przez przypadki, radzi sobie z naszą mową lepiej niż wielu tradycyjnych użytkowników języka polskiego. Owszem, trzeba wciąż pracować nad warstwą emocji i empatii, ale rozwój ChatGPT i bliźniaczych rozwiązań idzie również w tym kierunku – mówi menedżer technologiczny Mnemosis.

Wskazuje, że wirtualny asystent nie męczy się, jest cierpliwy i dostępny przez 24 godziny na dobę. I to wszystko za ułamek kosztów, jakie trzeba ponieść, by zatrudnić konsultanta z krwi i kości. Uważa, że tej tendencji nie da się już zatrzymać.

Zaufać maszynie

Zespół Mnemosis:
Stoją od lewej: Wiktor Krajnik, lider techniczny, technik optymalizacji, Krzysztof Lech, menedżer technologiczny, Bogumił Stuglik, lider techniczny rekonstrukcji 3D, Łukasz Markiewicz, lider techniczny DevOps, Paweł Liberadzki, architekt IT, Filip Zabijak, dyrektor operacyjny. Siedzą od lewej: Piotr Foryś, lider techniczny fuzji danych, Piotr Osiński, starszy inżynier widzenia maszynowego, Robert Sitnik, dyrektor ds. technologii, i Marcin Adamczyk, były dyrektor inżynierii.
materiały prasowe

W spółce Mnemosis pracują nad tym, by bot miał prawdziwą twarz, na której emocje rysują się w sposób naturalny i realistyczny. Mowa ciała i warstwa niewerbalna są istotniejszym kanałem w komunikacji międzyludzkiej niż słowa i ton głosu. Najważniejsza jest właśnie twarz.

Szef od technologii tak postrzega ideę digital twin:

– Chodzi o stworzenie symulacji człowieka, która będzie tak dobra, że nieodróżnialna, czyli będziemy w stanie uwierzyć, że rozmawiamy z rzeczywistą osobą. Kluczowy jest zmysł wzroku, a potem słuchu. Jeśli będziemy je w stanie oszukać, to jesteśmy w stanie oszukać mózg, żeby myślał, że digital twin to prawdziwa osoba.

WhatsApp, gigant wśród komunikatorów (2 mld użytkowników), ogłosił, że wprowadza awatary jako nowy, spersonalizowany sposób wyrażania siebie. Cyfrową wersję użytkownika można utworzyć z kombinacji fryzur, twarzy, ubiorów. Można używać swego awatara jako zdjęcia profilowego albo wybrać z 36 naklejek odzwierciedlających różne emocje i czynności.

O ten nowy gadżet pytamy tych, którzy codziennie mają do czynienia z awatarami.

– Podobne funkcjonują już na Facebooku i Messengerze, które należą do Mety. Facebook skopiował rozwiązanie wprowadzone przez Snapchat, przejmując w 2016 r. spółkę Bitmoji. W tym wypadku chodzi o zabawę. O przyciągnięcie nowych klientów i zatrzymanie obecnych kolejną zajmującą funkcjonalnością. Facebook motywuje to tym, że personalizowane awatary umożliwiają wyrażanie siebie i dzielenie się emocjami w interesujący sposób – mówi Krzysztof Lech.

Ale jak zaufać maszynie, że dobrze doradzi, pokieruje?

– To trudne pytanie. Nie ma technologii w stu procentach dokładnej i bezpiecznej. Każdy element technologiczny może się zepsuć, wymaga serwisu. Technologia nadaje się jednak do rzeczy powtarzalnych. Rozwój technologiczny polega na tym, że coraz większy zakres czynności pozwala uznawać za powtarzalne. Ze względu na rozwój algorytmów, sztucznej inteligencji ten zakres powtarzalności dodatkowo się zwiększa. Coraz bardziej złożone czynności można przenieść na komputer, który poradzi sobie równie dobrze jak człowiek. Komputer jest bardziej niezawodny, nie męczy się, nie jest rozkojarzony, nie ma kaca – uważa prof. Robert Sitnik.

Trzy dni zamiast miesiąca

Założenia:
Polska spółka chce tworzyć modele 4D w trzy doby, a całą pracę manualną zautomatyzować za pomocą nowatorskiego rozwiązania. Celem jest zrewolucjonizowanie sposobu przenoszenia rzeczywistych osób do świata wirtualnego i osiągnięcie niespotykanej jakości digital human.
materiały prasowe

Mnemosis zbudował system do skanowania ciała w ruchu (60 razy na sekundę). Dzięki technologii pomiarowej 4D (wymiarowanie 3D oraz ich zmiana w czasie) są w stanie uchwycić ruch pojedynczej osoby, grupy ludzi czy nawet zwierzęcia i przenieść je do świata wirtualnego dzięki zautomatyzowanym procesom animowania.

Niewiele firm na świecie skanuje w ruchu tak jak polski start-up. Także skanowanie wieloma metodami pomiarowymi równocześnie, by uzyskać dokładniejsze dane, jest rzadko używane, bo wymaga precyzji w budowaniu systemu pomiarowego i przetwarzaniu danych. Ponadto Mnemosis chce przetwarzać dane w pełni automatycznie, bez ingerencji operatorów, specjalistów, grafików. Podobno tego na świecie nie robi nikt.

– W ten sposób tworzymy zupełnie nową jakość i technologię, której jeszcze nikt nie opracował – mówi Krzysztof Lech.

Dotąd dobrej jakości awatara robił zespół: grafik, modeler, rigger (specjalista od modelowania cyfrowego), animator, specjaliści od włosów, oczu. Prace trwały nawet kilka miesięcy. Żmudna – i kosztowna – praca manualna wymaga umiejętności artystycznych i technicznych. Zaś polska spółka chce tworzyć modele 4D w trzy doby, a całą pracę manualną zautomatyzować za pomocą nowatorskiego rozwiązania. Celem jest zrewolucjonizowanie sposobu przenoszenia rzeczywistych osób do świata wirtualnego i osiągnięcie niespotykanej jakości digital human.

– Dotychczas w wytworzenie awatara były zaangażowane co najmniej cztery wyspecjalizowane osoby przez miesiąc lub dłużej. Metoda Mnemosis angażuje jednego człowieka przez trzy dni, bo delikatne wsparcie techniczne i kontrola nad procesem są potrzebne – mówi prof. Robert Sitnik.

Po kilku minutach modelki były wolne

Praca wre:
Już w tym roku spółka zamierza wytwarzać cyfrowe awatary na szeroką skalę. W drugiej połowie 2023 ma to już być nawet kilka awatarów na dobę.
materiały prasowe

Powstawanie awatara można prześledzić na przykładzie cyfrowego bliźniaka Klaudii Nieścior, finalistki 11 edycji Top Model.

Mnemosis ograniczyła się do zeskanowania twarzy modelki, która wypowiada kilkunastosekundowe zaproszenie do obejrzenia finałowego odcinka programu.

Proces rozpoczyna się od skanowania postaci w dwóch systemach: do pomiaru ciała i do pomiaru twarzy. System skanowania to dziesiątki skalibrowanych kamer rozmieszczonych dookoła modela. Synchronicznie, z częstotliwością 60 pomiarów na sekundę, zbierają obraz z wielu kierunków. Wszystko wspomagane jest oświetleniem i nagraniem dźwięku. Następnie przechodzi się do etapu rekonstrukcji, czyli wyliczenia na podstawie zebranych strumieni wideo trójwymiarowych modeli powierzchni ciała i twarzy. Nagranie trwa tak długo, jak wypowiedź modelki, dlatego Klaudia Nieścior była wolna już po kilku minutach.

W kolejnym kroku przechodzimy już do przetwarzania i analizy danych. To równoległe procesy będące tajemnicą firmy. Algorytmy analizują, przetwarzają, upraszczają i manipulują danymi pomiarowymi, by ostatecznie uzyskać cyfrowy wizerunek skanowanej postaci.

Do połowy 2023 r. spółka będzie się skupiała na pełnej automatyzacji tego procesu, by móc wytwarzać cyfrowe awatary na szeroką skalę. W drugiej połowie roku ma to już być nawet kilka awatarów na dobę. Mnemosis zbuduje też platformę marketplace, na której każdy klient będzie mógł wypróbować i kupić awatara charakterystycznej postaci i wykorzystać go w swoim biznesie. Cyfrowe bliźniaki mogą znaleźć zatrudnienie w e-commerce i obsłudze klienta, branży medycznej, rozrywkowej, medialnej, filmowej (np. wirtualni statyści, kaskaderzy, aktorzy), w komunikacji, grach komputerowych, profesjonalnym sporcie (sportowcy wykorzystują zaawansowane metody skanowania ciała w celu zwiększenia efektywności treningów i poprawy techniki) i wielu innych sektorach.

Mnemosis zapowiada, że w 2024 r. skoncentruje się na treningu sieci neuronowych (z wykorzystaniem skanów) do wytwarzania fotorealistycznych modeli. Dzięki temu spółka zaoferuje automatyczne tworzenie modeli digital human użytkownikom dysponującym mniej profesjonalnym sprzętem pomiarowym. Zaś w modelu subskrypcyjnym udostępni aplikację, która pozwoli tworzyć awatary… każdemu. Cyfrowy bliźniak powstanie na podstawie danych nagrywanych nawet prostym sprzętem konsumenckim, np. telefonem.