Korelacja, czyli to nie tak jak myślisz.

Każdy inwestor zaczynając swoją przygodę z rynkami finansowymi, wśród ogromnej ilości różnych pojęć, bez wątpienia spotkał się z bohaterem tego artykułu.Analizy publikowane na portalach branżowych nasuwają na myśl porównanie, że ze współczynnikiem korelacji jest trochę tak jak z kierunkowskazem w samochodach BMW – każdy wie, że jest, jednak nie każdy potrafi go używać. Postaramy się przedstawić, czym jest korelacja oraz błędy występujące podczas jej interpretacji.

Do jakich wniosków może dojść początkujący „użytkownik?

Przykłady poniżej.

Rys.1 Przykład korelacji między temperaturą a ilością piratów.

Źródło: https://www.buzzfeednews.com/article/kjh2110/the-10-most-bizarre-correlations

Jak widać na powyższym wykresie wraz ze wzrostem temperatury maleje ilość piratów. Wniosek?
Globalne ocieplenie niesie ze sobą również pozytywne skutki w postaci zwiększenia się bezpieczeństwa na morzach.

Przytoczymy również coś dla żeńskiej części czytelników (być może również i męskiej), który sugeruje, iż należy wyprowadzić się do kraju, który charakteryzuje się niskim poziomem dochodu narodowego.

Rys.2 Korelacja między poziomem GDP a wielkością męskiego organu.

Źródło: https://www.buzzfeednews.com/article/kjh2110/the-10-most-bizarre-correlations

Nieumiejętne posługiwanie się wskaźnikiem, jak widać na powyższych przykładach, może doprowadzić do wielu nazbyt daleko idących wniosków. W celu uniknięcia takich sytuacji postanowiliśmy bliżej przyjrzeć się temu zagadnieniu.

Zacznijmy od definicji.

Posiłkując się matematyką odnajdujemy następujące wyjaśnienie:

„Korelacja między dwiema losowymi zmiennymi X i Y jest miarą siły (stopnia) liniowego związku między tymi zmiennymi.”

Jest to definicja zależności liniowej między dwiema zmiennymi, w której zwiększenie wartości jednej z nich powoduje proporcjonalne zmiany wartości oczekiwanej drugiej(wzrost bądź spadek). Współczynnik korelacji Pearsona jest to znormalizowana kowariancja, której wynik mieści się zawsze w przedziale od -1 do 1. Został opracowany przez Karla Pearsona i można wyliczyć go z wzoru:

Gdzie: ,
x i y – zmienne losowe o dyskretnych rozkładach,
– wartości prób losowych zmiennych x i y (i = 1,2,….,n),
- wartości średnie z prób, czyli .

Wyniki współczynnika mogą przyjmować wartości dodatnie oraz ujemne.

Poniżej graficzna reprezentacja ze względu na różne wartości otrzymanego współczynnika.

Rys. 3 Przykładowe wykresy danych (x,y) i odpowiadające im wartości współczynnika korelacji liniowej Pearsona.

Źródło: https://pl.wikipedia.org/wiki/Wsp%C3%B3%C5%82czynnik_korelacji_Pearsona

Najciekawsza jest ostatnia kolumna pokazująca korelacje wynoszącą 0, czyli brak ZALEŻNOŚCI LINIOWEJ. Dostrzec można jednak, że jakaś zależnośćwystępuje (UWAGA wynik 0 przy korelacji Pearsona nie oznaczy, że takowej nie ma, gdyż istnieją jeszcze niemonotoniczne zależności). Idealnym przykładem może być tutaj rzut monetą (uczciwą), gdzie ustala się wygraną bądź też przegraną ze względu na wynik rzutu. Jeśli zdefiniuje się kwotę zakładu jako X, natomiast wygraną netto jako Y i oznaczymy funkcją y=x^2 wtedy X i Y mogą mieć zerową korelację liniową, ale będzie między nimi występowała zależność – jeśli zna się wartość X będzie się znało również wartość Y. Temat ten nie jest jednak przedmiotem tego artykułu.

Przed przystąpieniem do obliczania wartości współczynnika korelacji Pearsona należy pamiętać o dwóch podstawowych założeniach:

Początkujący „użytkownik” po krótkim wstępie opisującym teorię współczynnika korelacji wybiera średnie stopy zwrotów dwóch interesujących go walorów i przystępuje do obliczeń. Wnioski i zyski przyprawią go o entuzjazm, będzie musiał go wstrzymać, gdyż last but not least.

KORELACJA TO NIE TO SAMO, CO ZWIĄZEK PRZYCZYNOWY!

Rys.4 Correlation does not imply causation.

Źródło: https://towardsdatascience.com/why-correlation-does-not-imply-causation-5b99790df07e

Niestety za pomocą współczynnika korelacji dowiemy się tylko, że istnieje związek między dwomazmiennymi.Dopiero po wnikliwej analizie możemy się przekonać czy nie jest on przypadkowy. Jedną z kluczowych wad współczynnika korelacji jest właśnie to, iż nie wyróżnia on zmiennej zależnej i niezależnej. Pokazuje zgodność kierunku zmian oczekiwanej wartości badanych danych. Bardzo dobrym przykładem wysuwania zbyt daleko idących wniosków z analizy wyników współczynnika korelacji jest artykuł z 18 października 2012 z New England Journal of Medicine. Przedstawimy poniżej fragment artykułu wraz z wykresem zależności spożycia czekolady w danym kraju do ilości laureatów nagrody nobla.

„There was a close, significant linear correlation (r=0.791, P<0.0001) between chocolate consumption per capita and the number of Nobel laureates per 10 million persons in a total of 23 countries (Fig. 1). When recalculated with the exclusion of Sweden, the correlation coefficient increased to 0.862. Switzerland was the top performer in terms of both the number of Nobel laureates and chocolate consumption. The slope of the regression line allows us to estimate that it would take about 0.4 kg of chocolate per capita per year to increase the number of Nobel laureates in a given country by 1. For the United States, that would amount to 125 million kg per year. The minimally effective chocolate dose seems to hover around 2 kg per year, and the dose–response curve reveals no apparent ceiling on the number of Nobel laureates at the highest chocolate-dose level of 11 kg per year”

Rys.5 Zależność spożycia czekolady do ilości noblistów

Źródło: nejm.org

Autorzy założyli, iż skoro wychodzi wysoki współczynnik korelacji między spożyciem czekolady a ilością laureatów nagrody nobla, można przyjąć, że znamy „złoty środek” na zostanie geniuszem. Wystarczy pół kilograma czekolady rocznie i jesteśmy bliżej naukowego Olimpu.

Pamiętając , iż Korelacja To Nie To Samo Co Wynikanie, zapewne zatrzymaliście się przed ruszeniem do sklepu po roczny zapas czekolady. Niestety, jak widać powszechnie stosuje się błędną interpretację analizy korelacji mianowicie, że implikuje ona przyczynowość. Jak wspomnieliśmy wcześniej - nie wyjaśnia ona charakteru zgodności liniowej a jedynie ocenia jego intensywność. Kolejną kwestią jest to, że dwa czynniki mogą wykazywać związek nie dlatego, że mają na siebie wpływ, tylko ze względu na to, że oddziałuję na nie ten sam czynnik trzeci. W tym wypadku należałoby rozważyć chociażby poziom dobrobytu w danych krajach, czy to aby on nie wpływa na poziom dostępu do takich dóbr jak czekolada oraz na jakość systemu edukacji.

Kolejnym błędem, który można wykazać na tym przykładzie jest sam dobór danych,zktórychwyciąga się informację odnośnie jednostek na podstawie całej grupy. Bardziej rozsądnym podejściem byłoby przyjrzenie się konsumpcji czekolady wśród samych laureatów nagrody nobla i na tej podstawie sformułowanie wnioski.

Podsumowując ten temat, posłużymy się wyjaśnieniem profesora Bogusława Guzika zawartym w artykule „Empiryczne szacowanie zależności ekonomicznych” :

„Otóż zwykły współczynnik korelacji liniowej może być uznany za wskaźnik siły zależności między zmienną Y a zmienną X tylko wtedy, gdy jednocześnie:

1. Zmienna X rzeczywiście jest czynnikiem kształtującym zmienną Y, a więc gdy gruntownie zweryfikowana teoria i powszechne przekonanie profesjonalistów wskazują, że Y zależy od X , co znaczy, że X jest przyczyną a Y – skutkiem;

2. Zmienna X jest jedynym czynnikiem oddziałującym na Y lub też w zmiennej X odzwierciedlają się wszystkie czynniki kształtujące zmienną Y ;

3. Zależność między zmienną Y a zmienną X jest liniowa.

Tylko w tym przypadku obliczanie standardowych (Pearsonowskich) współczynników korelacji można byłoby z całkowitym przekonaniem potraktować jako odgadywanie siły zależności tych zmiennych. Jeśli jednak któryś z podanych trzech warunków nie jest spełniony, „przyczynowo-skutkowa” interpretacja współczynnika korelacji jako miernika siły zależności nie jest uzasadniona”

Analizując współczynnik korelacji między wielkościami, które rosną/spadają w miarę upływu czasu, czyli podlegają trendom, można wielokrotnie dojść do wniosków, które nie przedstawiają ze sobą większych wartości – czego przykłady zostały przytoczone wcześniej.

Jedną z metod służącą „eliminacji trendu” jest różnicowanie szeregu. Polega ono na obliczaniu pierwszych lub dalszych różnic między kolejnymi wartościami. Pierwsze różnice obliczamy ze wzoru

Będą one reprezentować zmiany wartości w badanym szeregu. Przykładowy szereg, może więc mieć przebieg wykazujący trend a po różnicowaniu otrzymamy wartości, które (bardzo często) będą już stacjonarne, a przynajmniej będą miały stały w czasie średni poziom. Następnie określa się czy istnieje korelacja między oraz .

Skuteczność zastosowania wzoru pierwszych różnic do eliminacji, tak zwanych korelacji pozornych, przedstawimy na jednym z przykładów ze strony zajmującej się wyszukiwania takich powiązań.

Okazuje się, że istnieje silna korelacja wynosząca 0.94709 między ilością konsumowanego sera na mieszkańca do ilości zgonów wśród ludzi zaplątanych w prześcieradła.

Rys.6 Korelacja między konsumpcją sera a ilością ludzi zaplątani w prześcieradła

Źródło: https://www.tylervigen.com/spurious-correlations

Wykorzystując wzór pierwszych różnic dokonamy przekształcenia danych, eliminując z nich trend.

Tabela 1. Dane do korelacji wielkości populacji z ilością bocianów.

Źródło opracowanie własne na podstawie: https://www.tylervigen.com/spurious-correlations

Współczynnik korelacji obliczony z nowych danych wynosi już tylko 0,255605 czyli jest to diametralna zmiana w stosunku do pierwotnej wartości wynoszącej blisko 1.

Na powyższych przykładach widać jak wiele błędnych wniosków można wyciągnąć interpretując bez dodatkowych analiz wskaźnik korelacji. Błędy takie może popełniać niedoświadczony, początkujący adept sztuki inwestowania. Nie jest jednak rzeczą rzadką, iż popełniają je również ludzie uchodzący za profesjonalistów, którzy od dłuższego czasuzwiązani są z rynkami finansowymi.

Korelacja w świecie finansów jest istotnym elementem dla uczestników rynku, chociażby dlatego, że wykorzystywana jest do tworzenia zdywersyfikowanych portfeli. Jest to wskaźnik który nie jest bezpośrednio analizowany oraz zmienia się w czasie dlatego poświęca się duże nakłady na to aby oszacować korelacje, modelować jej zmiany w czasie i zachowanie podczas szoków rynkowych.

W celu zademonstrowania tego jak korelacja zmienia się w czasie i należy ją bezustannie monitorować, przyjrzymy się dwóm zmiennym : indeksowi S&P500 oraz złocie. Obserwacje poczynimy na okresie pierwszych trzech miesięcy roku na przestrzeni trzech ostatnich lat.

Poniżej przedstawimy wykresy reprezentujące skumulowane stopy zwrotów (przyjmując wartość 100 za początkową).

Rys 7. Wykres skumulowanych stóp zwrotu od 01.01.2018 do 01.04.2018

Tabela : Opracowanie własne na podstawie stooq.pl

Korelacja dla zadanego okresu między indeksem S$P500 a złotem wynosi 0,208755

Rys 8 Wykres skumulowanych stóp zwrotu od 01.01.2019 do 01.04.2019

Tabela : Opracowanie własne na podstawie stooq.pl

Korelacja dla zadanego okresu między indeksem S$P500 a złotem wynosi -0,30175

Rys 9 Wykres skumulowanych stóp zwrotu od 01.01.2020 do 01.04.2020

Tabela : Opracowanie własne na podstawie stooq.pl

Korelacja dla zadanego okresu między indeksem S$P500 a złotem wynosi 0,07899

Jak widać na załączonych przykładach korelacja nie jest zjawiskiem stałym w czasie. Oznacza to, że oparcie budowy portfela na historycznych danych może okazać się błędne. Prowadzi to do tego, iż wymaga ciągłego monitorowania o czym wspomnieliśmy wcześniej lub prognozowania korelacji, tak jak np. niektóre z funduszy absolutnej stopy zwrotu prognozują chociażby tzw. Betę rynkową lub zmienność. Należy uznać to za dużo rozsądniejsze podejście o ile oparte jest o konkretne modele statystyczne, a nie subiektywną ocenę.

Na koniec warto odnotować, że współczynnik korelacji został niejako wprowadzony dla świata finansów przez Harry ‘ego Markowitza, gdy w 1952 roku pokazał światu swoją nowoczesnąteorię portfelową. Według założeń w niej zawartych,w celu zmniejszenia wariancji portfela inwestycyjnego, należy dobierać aktywa charakteryzujące się jak najniższą wartością współczynnika korelacji (czyli nieskorelowane), lub ujemnie skorelowanych jeśli to możliwe. Problem polega jednak na tym, że korelacje nie są bezpośrednio obserwowane oraz mają tendencję do zmiany w czasie (co pokazaliśmy w artykule). Kolejną kwestią jest to o czym wspomnieliśmy na początku, iż mogą powstawać błędne wyniki ze względu na porównywanie walorów, które w danym momencie są w tym samym trendzie. Wszystko to powoduje, że początkujący inwestor stosujący się do założeń teoretycznych może stworzyć portfel, który również tylko w teorii będzie bezpiecznym.

Na koniec chcieliśmy poruszyć kolejny (a jakże) problem przy interpretacji współczynnika korelacji, a mianowicie myślenie iż otrzymany wynik dodatni oznacza tendencję dwóch zmiennych losowych do ruchu w tym samym kierunku, podczas gdy wartość ujemna sygnalizuje coś przeciwnego.

Przyglądając się jednak uważnie wzorowi dostrzegamy, że Pearsonowska korelacja obliczana jest z odchyleń od średnich a więc wszelkie wnioski pochodzące z jego znaku lub wartości można odnosić tylko do odchyleń od średniej odpowiednich szeregów czasowych.

Co niesie ta zmiana interpretacji dla inwestora tworzącego swójpierwszy „bezpieczny” portfel?

Jesteśmy przekonani, że bardzo dużo.Nikt nie będzie szczęśliwy iż wszystkie walory z jego portfela tracą w tym samym czasie, ale z pewnymi odchyleniami wokół ich trendu. Wystarczy, że w trendzie spadkowym jedna spółka będzie spadała w analogicznym okresie więcej niż jej średnia, podczas gdy druga o tą samą wartość mniej od średniej i otrzymamy wynik korelacji ujemnej (odchylenia od średniej są identyczne, ale mają przeciwne znaki), podczas gdy reprezentacja graficzna pokaże bez wątpienia iż powinna wychodzić wartość dodatnia współczynnika.

W celu bardziej obrazowego przedstawienia problemuprezentujemy poniżej przykład z książki „Market sense and nonsense” J. Schwager’a, który został omówiony na blogu bossa.pl.

Rys. 10 Stopy zwrotu indeksy S&P oraz funduszu A

Źródło: https://blogi.bossa.pl/2013/03/06/zludne-korelacje/

Rys. 11 Skumulowany wykres stóp zwrotu indeksu S&P oraz funduszu A

Źródło: https://blogi.bossa.pl/2013/03/06/zludne-korelacje/

Analizując wykres skumulowanych stóp zwrotu zastanawiać się można jak blisko doskonale ujemnej korelacji są stopy zwrotu z indeksu oraz funduszu. Otóż wynik współczynnika korelacji wynosi, uwaga …. 1 .Wystarczą zmiany w tych samym kierunkach w tym samym czasie w stosunku do swoich średnich.

Pisząc ten artykuł chcieliśmy przedstawić do jak wielu pomyłek może doprowadzić wyszukiwanie i analizowanie współczynnika korelacji w oderwaniu od jego założeń i ograniczeń. W świecie finansów bardzo często kwestia błędu ma bezpośrednie przełożenie narachunek zysków i strat z inwestycji. Wiemy, że najlepiej uczyć się na błędach, jednak wychodzimy z założenia, że na cudzych. Stąd też poruszony przez nas temat „korelacja czyli to nie tak jak myślisz” aby było tych błędów jak najmniej.

Michał Krajewski

Yellow Bird Invest

KONTAKT

Tel: +48 600 055 883

E-mail: 5213888779

O FIRMIE

YELLOW BIRD INVEST SPÓŁKA Z OGRANICZONĄ ODPOWIEDZIALNOŚCIĄ

Jarosława Dąbrowskiego 46 / 1

02-561 Warszawa

NIP: 5213888779

REGON: 385456523

KRS: 0000826090