Zespół badawczy kierowany przez prof. Włodzimierza Gogołka z Uniwersytetu Warszawskiego, od kilku lat stosuje tzw. rafinację danych Big Data, na podstawie której prognozuje m.in. wyniki wyborów parlamentarnych i prezydenckich.
„Wyłuskiwanie wartościowych informacji z Big Data wymaga kilku specjalistycznych narzędzi programowych. Ich działanie polega na zbieraniu wpisów - informacji z sieci (robią to roboty), wyszukiwaniu fraz zawierających określoną nazwę, np. firmy, nazwisko, które są w sąsiedztwie słów określanych jako sentyment. Np. polityk Abacki jest dobrym ekonomistą. Zliczając liczby fraz z pozytywnymi i negatywnymi sentymentami (w przykładzie pozytywnym sentymentem jest dobry) uzyskujemy opinię o Abackim, np. 100 tys. dobrych opinii 1000 złych” - wyjaśnia w rozmowie z PAP Gogołek.
Profesor z zespołem stosował metodę rafinacji dużych zbiorów danych przy okazji wyborów prezydenckich i parlamentarnych w 2011 r., dowiodła ona wtedy swojej wysokiej wiarygodności. Podobną analizę przeprowadzono także podczas finału kampanii w tegorocznych wyborach prezydenckich.
„W wyborach parlamentarnych i prezydenckich w 2011 r. wyniki zostały przewidziane bezbłędnie. W ostatnich wyborach prezydenckich wymowna jest procentowa różnica (zaledwie 0,66 proc.) pomiędzy liczbami pozytywnych sentymentów dotyczących każdego z kandydatów, zgromadzonymi przez nasze narzędzia w przeddzień wyborów prezydenckich 2015, która wynosiła 2,44 proc., a rzeczywistą różnicą jaka dzieliła Andrzeja Dudę i Bronisława Komorowskiego - 3,10 proc.” - tłumaczy profesor.
Ekspert wyjaśnia, że rafinacja dużych zbiorów danych stanowi wartościową alternatywę dla ilościowych badań sondażowych, zaś dzięki automatyzacji procesów, jej koszt w porównaniu do klasycznych metod jest o wiele mniejszy.
„Klasyczne badania opierają się na analizie, najczęściej skategoryzowanych, odpowiedzi na pytania, które zadawane są określonej reprezentatywnej liczbie, setek, rzadziej tysięcy, osób. Rafinacji poddawane są natomiast miliony wpisów. Np. w ostatnich badaniach dotyczących Jana Pawła II rafinacji poddaliśmy około 5 mln wpisów. O wiarygodności badań klasycznych stanowi reprezentatywność próby np. tysiąc osób, w rafinacji wiarygodność implikują wcześniej uzyskane wyniki” - mówi Gogołek.
„W stosunku do tradycyjnych badań koszty rafinacji są marginalne, szczególnie jeśli dysponuje się względnie wystandaryzowanymi narzędziami: roboty kolekcjonujące wpisy, identyfikacja sentymentów, obliczanie krotności sentymentów” - dodaje profesor.
Rafinacji Big Data nie należy rozpatrywać jako badawczego eksperymentu, profesor przekonuje, że to i podobne narzędzie znajdują zastosowania komercyjne.
„Rafinacja obejmuje bardzo szerokie spektrum możliwych badań min.: monitoring marki – identyfikacja bieżących zagrożeń pozytywnego obrazu marki, możliwości zbierania sentymentów dotyczących notowań spółek giełdowych - testy wskazały nadzwyczaj dużą korelację przewidywań z rzeczywistymi notowaniami czterech spółek giełdowych (Enea SA, KGHM SA, Synthos SA i Tauron SA). Podobnie do badań marki łatwe jest, korzystając z rafinacji, monitorowanie notowań organizacji, partii i poszczególnych osób. Identyfikacja zagrożeń: przestępstwa, wady masowych produktów itp.” - przekonuje Gogołek.
Rafinacji dużych zbiorów danych naucza się także na Wydziale Dziennikarstwa i Nauk Politycznych Uniwersytetu Warszawskiego, gdzie studenci wykorzystują te narzędzia m.in. do przeprowadzenia badań, których wyniki wykorzystują w pracach dyplomowych.
Jak wyjasnia profesor, rafinacja, od kilku lat, stanowi fragment jego wykładu dotyczącego nowych źródeł informacji dziennikarskich, a ponadto studenci mają dostęp do tego narzędzia, np. podczas pisania prac dyplomowych.
Badanie przeprowadzone w tym roku przez IBM Institute for Business Value wśród kadry kierowniczej globalnych przedsiębiorstw dowiodło silnej potrzeby wprowadzania różnego typu analityki danych do codziennych praktyk funkcjonowania przedsiębiorstw i organizacji. Według Hala Variana, głównego ekonomisty Google, Big Data Scientist, czyli badacz danych, będzie jednym z najbardziej pożądanych zawodów w IT w ciągu najbliższej dekady. Szacuje się, że już do 2020 roku sieć rozrośnie się do poziomu 45 zetabajtów. Do tego czasu luka na rynku pracy w USA wyniesie już ponad 1,5 mln wolnych stanowisk, czekających na obsadzenie przez specjalistów od Big Data.