Wielkie dane potrzebują wielkich pytań

Rozmawiał Karol Jedliński
opublikowano: 2015-10-01 22:00

Analiza danych to nie ilość, ale jakość modelu badawczego. Co z tego, że masz zasięg 10 tys. tweetów, jak nie wiesz, czy to dobrze, czy może źle?

Analiza danych to nie ilość, ale jakość modelu badawczego. Co z tego, że masz zasięg 10 tys. tweetów, jak nie wiesz, czy to dobrze, czy może źle? A to i tak prawdopodobnie nieistotne — mówi Lutz Finger, autor książki „Pytaj, mierz, ucz się”, jeden z panelistów podczas EFNI

DANE W PRAKTYCE:
DANE W PRAKTYCE:
Dla mnie dane nie są obsesją. To rzeczywistość, dzięki której kupując samochód, szybko wyliczyłem, który model ma najlepszą najbardziej zaniżoną wartość — mówi Lutz Finger, ekspert w dziedzinie zarządzania danymi i ich analizy.
ARC

„Puls Biznesu”: Wszyscy znamy firmy wręcz tonące w potokach danych. Dlaczego nie potrafią w nich sprawnie pływać? To kwestia techniki, niewłaściwych pytań czy po prostu siły, niewystarczających nakładów na analitykę?

Lutz Finger: Największym błędem popełnianym przez firmy jest to, że rozpoczynają od danych. Dane są istotne, jednak często są one złą wskazówką do formułowania pytania. Zauważam, że nierzadko firmy angażują kapitał i dokonują pomiarów, bo po prostu mają taką możliwość! Prowadzi to do tzw. paraliżu poprzez analizę. Młode firmy analityczne mediów społecznościowych są tego dobrym przykładem. „Masz 10002 tweetów” — i co z tego? To dobrze czy źle?

Wiadomo, zależy.

Prawdopodobnie nie jest to istotne. Posługując się terminologią laika… w służbie zdrowia wykonuje się tylko te pomiary, które są ważne dla zarządzania danym problemem zdrowotnym. Nie można po prostu mierzyć wszystkiego tylko dlatego, że technicznie jest to wykonalne. W świecie wielkich zbiorów danych należy stosować dokładnie takie samo podejście.

Czy spotkali się pan z przypadkiem, że „Big Data”— mimo zadawania właściwego pytania — nie przyniosły satysfakcjonującej odpowiedzi na to, jak uleczyć pacjenta?

W pierwszej kolejności należy wyzbyć się samego wyrażenia „Big Data”. My potrzebujemy małych danych. Chcemy czegoś idealnego, uzyskania porady w działaniu i jest to czymś tak niewielkim i prostym jak odpowiedź „tak” lub „nie”. Świat jest pełen błędów związanych z danymi. Śmiertelnych błędów. Posłużmy się ponownie przykładem zaczerpniętym z medycyny: zastosowanie estrogenu miało zmniejszyć ryzyko ataków serca... Były to dane wykorzystane nieprawidłowo. W ten sposób wiele kobiet zmarło w wyniku innych skutków niepożądanych, występujących w połączeniu z estrogenem. Oznacza to także dane. One są przeznaczone do rozpoznawania wzorców. W przypadku zastosowania niewłaściwych danych, w rezultacie uzyskamy złe wnioski. Największym problemem w naszym świecie jest nadmierna ufność użytkowników wobec prezentowanych przez nie wyników.

Czy obecnie „Big Data” w tym nadmiernym zaufaniu nie stała się wytrychem, imitacją rozwoju, elementem marketingu nowoczesnych korporacji?

Mam wrażenie, że proces znany teraz pod nazwą „Big Data” jest stosowany od wieków.

Absolutnie — starałem się znaleźć pierwszy przypadek wykorzystania danych pomiaru. Inkowie posługiwali się dwoma słupami dla wyznaczenia miejsca, w którym wschodziło słońce. Skonstruowali system przewidujący — stosowany w celu ustalenia tego, kiedy przypada dobry czas do sadzenia upraw. My przeszliśmy długą drogę, aczkolwiek idea jest wciąż ta sama: wykorzystać dane do przewidzenia. Ta technologia ma często 100 lat (na przykład regresja logistyczna). To, co się zmieniło, to fakt, że łatwo możemy rozpocząć pomiar wszystkiego i wszystkich.

I w ten sposób dysponujemy większą ilością danych. I znów wracamy do analizy.

Jeśli uda się pan do Disney Worldu, dostanie tam tzw. magiczną opaskę. Ten drobiazg pozwoli panu na korzystanie z atrakcji parku… i zarejestruje też miejsce pana pobytu oraz spędzony w nim czas. Wykorzystując wszystkie dane zebrane od wszystkich razem, operator parku dysponuje dużą ilością danych. Rozpoznawanie wzorca, które nie byłoby możliwe bez tej masy krytycznej, teraz staje się możliwe.

Na pewno ma pan ulubiony przykład firmy, która wystrzeliła w następstwie dobrze zaplanowanej operacji „Big Data”.

To każda znana firma w Dolinie Krzemowej. IBM stworzyła platformę analityczną Watson i odmieniła całą firmę. Amazon i Netflix budują model służący pomocy klientom w wyborze lepszego sposobu zakupu tego, co chcą nabyć w następnej kolejności. Lista takich przykładów jest długa: od opieki zdrowotnej, poprzez budownictwo, aż do wydobycia surowców i sprzedaży detalicznej. Jeśli jakaś firma nie zaadaptuje eksploracji danych, to prawdopodobnie wkrótce będzie borykać się z problemem.

Bo inni będą lepsi. Czy jednak każdego stać na nurkowanie w głębinie danych? Czy dla małej firmy nie jest to zbyt droga zabawka?

To nie wielkość firmy jest tym, co się tutaj liczy. W moim startupie, w którym pracowałem, zanim przeszedłem do LinkedIn, transferowaliśmy 25 TB co tydzień. A w tamtym czasie nasz zespół liczył poniżej 10 osób. Ważną częścią nie jest rozmiar biznesu, ale to, czy masz dostęp do danych i czy możesz wykorzystywać je do właściwego zapytania.

Patrząc na pański dorobek, nie sposób nie zapytać, czy „Big Data” jest dla pana rodzajem obsesji? Poza godzinami pracy też dostrzega pan zbiory danych „przelatujące” wokół?

Co dokładnie ma pan na na myśli, mówiąc o obsesji? To, że mierzę tempo mojego oddechu za pomocą urządzenia Spire, lub to, że badam swoich studentów z Cornella i Harvardu co dwie godziny? Dane nie są obsesją. To jest rzeczywistość. Gdy przyjechałem do USA, potrzebowałem samochodu. Zamiast pójść do salonu, pojedynkowałem się z handlarzem. Sam wprowadziłem wszystkie potrzebne dane w mój własny model i wytypowałem trzy samochody, których wartość była zaniżona. W ten sposób kupiłem najlepszy samochód w krócej niż jeden dzień. © Ⓟ

Z głową na karku

Lutz Finger jest dyrektorem działu data science w LinkedIn, ekspertem ds. mediów społecznościowych i analityki tekstowej. Ma dyplom MBA z Instytutu INSEAD oraz tytuł magistra fizyki kwantowej z UT w Berlinie. Jest doradcą i członkiem zarządu kilku korporacji z branży danych w Europie i USA.