George Box, brytyjski statystyk, napisał niegdyś, że „wszystkie modele są błędne, ale niektóre są użyteczne”. Trafił tym stwierdzeniem w sedno modelowania statystycznego. Stworzenie modelu bezbłędnego, szczególnie w ekonomii, jest w zasadzie niemożliwe. Prognozując PKB, inflację, ceny akcji czy zyski spółek zawsze mamy do czynienia z niepewnością i błędem prognozy.
To nie oznacza jednak, że tworzenie modeli prognostycznych nie ma sensu. Przeciwnie. Modele z błędem nawet 20-30-procentowym mogą być bardzo użyteczne i dawać istotną przewagę nad decyzjami, których podstawą jest intuicja, wiedza, a nie analiza danych.
Polski ekonomista Wojciech Kuryłek postanowił więc sprawdzić, jak różne modele radzą sobie z prognozowaniem zysków polskich spółek. To kluczowe zagadnienie, ponieważ zyski przedsiębiorstw są głównym motorem wzrostu cen akcji i decydują o sukcesie lub porażce inwestycyjnej. Skuteczne prognozowanie zysków może więc przełożyć się na realne korzyści finansowe.
Wyniki? Ku zaskoczeniu na polskiej giełdzie najlepiej sprawdza się najprostszy model. Poniższy wykres pokazuje bezwzględny błąd prognozy znormalizowany tak, że może przyjmować wartość od -1,57 do 1,57. Im niższa wartość, tym mniejszy błąd prognozy danego modelu. Najbardziej skuteczny jest model SRW (seasonal random walk), który polega na tym, że przewidujemy wskaźnik zysku do ceny akcji spółki za rok, znając obecny poziom wskaźnika. Słowem — zakładamy, że najlepszym predyktorem jutrzejszych zysków są zyski dzisiejsze, bez analizy żadnych skomplikowanych zależności. Czysta prostota.
Bardziej złożone modele mają natomiast większy lub dużo większy błąd prognozy. Jest to pewien paradoks. Modele te — w pewnym uproszczeniu, bez zagłębiania się w szczegóły — analizują sieć zależności między wieloma zmiennymi, wykorzystują uczenie maszynowe, identyfikują siłę interakcji między różnymi wskaźnikami, starają się wykryć jakieś wzorce w danych, a mimo to są… gorsze. Dla zobrazowania: to trochę tak jak z nowoczesnymi systemami, które mają poprawić jakość kierowania pojazdem. System automatycznego parkowania analizuje setki parametrów, by finalnie idealnie zaparkować samochód. Doświadczony kierowca czuje auto i często parkuje lepiej. Czasem mniej znaczy więcej, większa złożoność nie musi przekładać się na większą skuteczność.
A dlaczego na polskiej giełdzie proste modele sprawdzają się lepiej niż złożone? Autor badania wyjaśnia to tak: „Dominacja modelu uproszczonego może wynikać z tendencji do nadmiernego dopasowania modeli złożonych oraz stosunkowo prostej dynamiki obserwowanej w polskich spółkach giełdowych”. Czyli — po pierwsze — złożone modele mogą znajdować przypadkowe korelacje, a nie prawdziwe zależności, a po drugie — polski rynek akcji ma prostszą strukturę niż dojrzałe rynki (mniejsza liczba graczy, mniej informacji w cenach, większa rola nastrojów), dlatego proste modele sprawdzają się lepiej. Można założyć, że na rynku amerykańskim to złożone modele miałyby mniejszy błąd prognozy.
To wszystko są dobre wieści dla polskich drobnych inwestorów. Okazuje się, że nie trzeba budować wielce skomplikowanych modeli ani inwestować czas w tworzenie algorytmów, by starać się ograć rynek. Czasem najlepsza strategia to ta najprostsza — wystarczą podstawowe umiejętności ekonometryczne i trochę danych.

