98% zgodności z JSA
- Wypróbuj za darmo program antyplagiatowy Wrona

Korelacja - co to jest? Jak wybrać test?

Korelacja to inaczej współwystępowanie. Określa związek pomiędzy zmiennymi. Dzięki korelacji wiemy na pewno, że jeśli A jest większe, to B także wzrasta. Obie zmienne zmieniają się równocześnie. Na przykład:

Okładka artykułu
starstarstarstarstar

ocena 5 (4)

Data aktualizacji: 2023-01-128

Korelacja – co to?

Korelacja to inaczej współwystępowanie. Określa związek pomiędzy zmiennymi. Dzięki korelacji wiemy na pewno, że jeśli A jest większe, to B także wzrasta. Obie zmienne zmieniają się równocześnie. Na przykład:

  • wzrost wiąże się z wagą,
  • czas poświęcony na naukę wiąże się z wynikiem z egzaminu,
  • stres wiąże się z osiągnięciami akademickimi.

Co ważne, korelacja r Pearsona służy do określenia związku liniowego. To znaczy, że wartości zmiennych muszą równocześnie spadać lub wzrastać, najlepiej o taką samą liczbę jednostek. W tym wypadku świetnym przykładem mogą być tabele BMI (ang. Body Mass Index) służące do oceny masy ciała. Kolorowe linie oddzielające od siebie grupy z różnym BMI (właściwym lub nie) wskazują na istnienie korelacji pomiędzy wzrostem a wagą. Im wyższa jest osoba – tym wyższą powinna mieć wagę i tym wyższe są dla niej widełki wagi prawidłowej (rys. 1).

tabela bmi

Siła i kierunek związku

Aby dobrze zinterpretować wartość współczynnika korelacji (wynik) musimy wiedzieć, że może on przyjąć wartość od -1 do 1.

Jeżeli wartość współczynnika jest bliska 1 mówimy o korelacji dodatniej. To znaczy, że jeśli zmienna A ma wartość wysoką – to zmienna B także. Naturalnie jeśli A ma wartość niską – to i B. Dokładnie tak, jak w przykładzie z BMI.

Jeżeli wartość współczynnika jest bliska -1 mówimy o korelacji ujemnej. To oznacza sytuację przeciwną: jeśli zmienna A ma wartość wysoką – to zmienna B ma niską. I odwrotnie: jeżeli zmienna A ma wartość niską – to zmienna B ma wysoką.

Im wartość współczynnika jest bliższa 0 mówimy o braku związku liniowego. Należy pamiętać, że pomiędzy tymi zmiennymi może wystąpić inny związek, którego nie da się opisać linią prostą albo może nie być między nimi żadnego związku. Sam wynik korelacji bliski 0 mówi nam tylko o tym, że nie ma związku liniowego. Czyli wysokość zmiennej A nie ma prostego przełożenia na wysokość zmiennej B (dodatniego czy ujemnego).

Znak przy wyniku związku (wynik dodatni lub ujemny) mówi nam więc o jego kierunku. O sile związku informuje nas natomiast to, jak blisko 1 lub -1 znajduje się wynik. Określając siłę nie musimy już brać pod uwagę tego minusa. Po prostu patrzymy na wartość bezwzględną. Zgodnie z podręcznikiem Statystyczny Drogowskazsiłę związku interpretujemy następująco:

0 – 0,30 – brak korelacji lub bardzo słaba korelacja, 0,31 – 0,50 – korelacja umiarkowana, 0,51 – 0,70 – korelacja silna, 0,71 – 1 – korelacja bardzo silna (Bedyńska, Cypryańska, 2013, s. 201).

Korelacja pozorna

Bardzo ważnym jest, aby dobrze zastanowić się przy interpretacji wyniku. Może się bowiem zdarzyć, że stwierdzimy zależność, która w rzeczywistości nie istnieje. Bardzo znanym przykładem korelacji pozornej jest stwierdzenie zależności pomiędzy ilością bocianów a ilością dzieci, które urodziły się w danym regionie. Ha! Być może rzeczywiście przypadkiem taki związek wystąpił. Ale czy to jest związek prawdziwy? Czy można wykorzystać te dane, aby stwierdzić, że bociany przynoszą dzieci? Oczywiście, że nie. Równie dobrze moglibyśmy zacząć szukać korelacji pomiędzy ilością pól kapusty a ilością noworodków w danym regionie. Trzeba więc uważać i skorzystać z teorii, aby nie wysnuć błędnych wniosków wynikających z pozornej korelacji.

Istotność

Po określeniu siły i kierunku związku, musimy wskazać jeszcze jedną rzecz: istotność korelacji. Oczywiście mowa tutaj o dobrze wszystkim znanym p < 0,05 czyli istotności testu. Wskazana wartość (0,05) jest wykorzystywana powszechnie i najprawdopodobniej idealna do Twojej pracy dyplomowej.

A czy wiesz, co oznacza?

Wartość p informuje nas, że z danym prawdopodobieństwem nasz wynik jest dziełem przypadku. Czyli jeżeli nasze p = 0,05 to istnieje 5% prawdopodobieństwa, że siła i kierunek korelacji wynikają z przypadku oraz 95%, że są wynikiem naszego badania.

Korelacja ≠ wpływ

Bardzo często zdarza się, że stawiając hipotezy studenci piszą „wpływ” a mają na myśli związek. Lub – co gorsza – naprawdę sądzą, że wynik korelacji świadczy o wpływie. Pamiętaj, że naprawdę tak nie jest. Istnienie korelacji pomiędzy zmiennymi mówi nam tylko tyle, że wartości tych zmiennych są ze sobą związane. Spadek jednej sugeruje nam wzrost lub spadek drugiej. Dostarcza informacji. To trochę tak, jak z jaskółkami. Słyszeliście zapewne powiedzenie, jak ktoś mówił, że „będzie padać, bo jaskółki nisko latają”. Czy pada, bo jaskółki latają nisko? Nie! A jednak opady deszczu i wysokość lotu jaskółki wiąże się ze sobą. Jednak to nie jaskółka lecąc nisko wywołuje deszcz. Jaskółka lata niżej, ponieważ niżej latają owady. A owady latają niżej, ponieważ wzrasta wilgotność powietrza i spada ciśnienie atmosferyczne. Co ma miejsce przed deszczem. Dlatego:

korelacja wysokości loty jaskółki

O związku przyczynowym, możemy mówić wtedy, gdy istnieje związek między zmiennymi, zachodzi odpowiedni porządek w czasie i wykluczyliśmy wszystkie inne alternatywne wyjaśnienia (np. kontrolując wpływ innych zmiennych oraz błędów próby).

Kowariancja

Możesz kojarzyć również termin kowariancji. Aby rozjaśnić sytuację i uniknąć problemów chciałabym tylko szybko wskazać, że kowariancja jest po prostu niewystandaryzowaną miarą związku. To znaczy, że kowariancja również dostarczy informacji na temat zmiany, jakiej ulegnie zmienna B w związku ze zmianą zmiennej A. Minusem kowariancji jest jej zależność od skali pomiarowej i związany z tym brak możliwości określenia siły związku. Dlatego jest ona wykorzystywana rzadziej.

Właściwy współczynnik dla Ciebie

To, z jakiego współczynnika skorzystasz w swoim teście zależy od dwóch czynników. Po pierwsze od tego, na jakiej skali są Twoje zmienne (ilościowej, porządkowej czy nominalnej). Po drugie zaś od tego, czy Twoje dane spełniają dalsze założenia współczynników korelacji.

Wybierając należy pamiętać, że zależy nam na wyborze jak najsilniejszego współczynnika korelacji. Zawsze zaczynamy więc „od góry” – od rPearsona do C-kontyngencji.

W tabeli poniżej zilustrowałam wybór w zależności od skali pomiarowej zmiennych :

Tabela 1.

Wybór testu w zależności od skal pomiarowych

Skala zmiennej 1 ilościowa Skala zmiennej 2 porządkowa nominalna
ilościowa r Pearsona patrz: porządkowa x porządkowa η (eta)
porządkowa patrz: porządkowa x porządkowa ρ Spearmana (rho) τ-b Kendalla (taub-b) τ-c Kendalla (tau-c) Gamma d Sommera patrz: nominalna x nominalna
nominalna η (eta) patrz: nominalna x nominalna φ Yula (phi) V Cramera C - kontyngencji

Krótkie wyjaśnienie skal pomiarowych:

  • ilościowa posiada jednakowe przedziały oddzielające od siebie kolejne wartości zmiennej; przykłady: waga, wzrost, wynik w teście.
  • porządkowa odległości pomiędzy kolejnymi wartościami nie są identyczne, ale określają hierarchię występowania; przykłady: wielkość miejsca zamieszkania, klasa samochodu.
  • nominalna wartości tej zmiennej to etykiety, kategorie możliwych odpowiedzi; przykłady: płeć, kolor oczu, marka samochodu.
Zmienne - ilościowa porządkowa nominalna
Poniżej możesz zapoznać się ze szczegółowymi wymaganiami poszczególnych testów.

Ilościowa x Ilościowa 𝑟 Pearsona

Zasadniczo rPearsona to jedyny parametryczny współczynnik korelacji. Traktuje się jako najlepszy współczynnik korelacji, najlepszy – ponieważ najbardziej godny zaufania. Jednak żeby móc w pełni skorzystać z jego możliwości, konieczne jest spełnienie rygorystycznych założeń:

  1. brak obserwacji odstających, czyli takich, które są znacznie powyżej lub poniżej ogólnej grupy. Przykład: kiedy badani ogólnie mają wyniki od 20 do 40, a jedna osoba posiada wynik 60;
  2. normalność rozkładu – zmienne, które chcemy skorelować, muszą mieć rozkład normalny;
  3. minimum 30 obserwacji (badanych).

Istnieją operacje statystyczne, które można wykonać (np. logarytmizacja), aby poradzić sobie z drobnymi problemami w spełnieniu założeń. Jednak kiedy nic nie pomaga – stosujemy ρ Spearmana.

Przykładowa hipoteza: Istnieje związek pomiędzy poziomem odczuwanego stresu a wynikiem w skali depresji.

Ilościowa x Nominalna η (eta)

W przypadku korelacji pomiędzy zmienną ilościową a nominalną (np. wzrost i płeć) możemy skorzystać z η. Jest to współczynnik, którego wynik przyjmuje wartość od 0 do 1, ale interpretacja pozostaje bez zmian. 0 oznacza brak związku, a im bliżej 1 – tym związek jest silniejszy.

Przykładowa hipoteza: Istnieje związek pomiędzy wzrostem a płcią.

Porządkowa x Porządkowa/Ilościowa

W każdym przypadku stosujemy je wtedy, gdy liczba wartości zmiennych wynosi przynajmniej 5. To znaczy, że jeżeli naszą zmienną jest wielkość miejsca zamieszkania, to musi ona mieć przynajmniej 5 wartości. Na przykład: wieś, miasteczko (do 20 tys.), małe miasto (20 – 150 tys.), miasto (150 – 500 tys.), duże miasto (powyżej 500 tys.).

Przykładowa hipoteza: Istnieje związek pomiędzy wielkością miejsca zamieszkania a poziomem odczuwanego stresu.

ρ Spearmana (rho)

Z ρ korzystamy zamiast r Pearsona. Jest współczynnikiem nieparametrycznym i mierzy zależność monotoniczną (również nieliniową). Jego zaletą jest również to, że nie jest tak wrażliwy na przypadki odstające i nie wymaga normalności rozkładu. Ale jednocześnie jego wyniki nie będą tak rzetelne, jak rPearsona. Stosujemy go wtedy, gdy liczba rang wiązanych jest mała (to znaczy, kiedy mamy dużą liczbę wartości dla obu zmiennych).

Przykładowa hipoteza: Istnieje związek pomiędzy poziomem odczuwanego stresu a wynikiem w skali depresji.

τ-b Kendalla (tau-b)

Również τ-b mierzy zależność monotoniczną. W odróżnieniu od ρ Spearmana stosujemy go wtedy, gdy liczba rang wiązanych jest duża (czyli wtedy, gdy mamy małą liczbę wartości obu zmiennych – 5 lub więcej).

Przykładowa hipoteza: Istnieje związek pomiędzy subiektywną oceną jakości życia a subiektywną oceną zdrowia.

τ-c Kendalla (tau-c)

Z kolei τ-c jest kolejnym współczynnikiem nieparametrycznym, który stosujemy wtedy, gdy zmienne znacznie różnią się liczbą przyjmowanych wartości. Na przykład jedna zmienna przyjmuje ich 5 (absolutne minimum) a druga – 50.

Przykładowa hipoteza: Istnieje związek pomiędzy subiektywną oceną jakości życia a wynikiem w skali depresji.

Gamma

Gammy staramy się unikać, ponieważ ma tendencję do zawyżania wartości korelacji.

d Sommera

Z kolei d Sommera wykorzystujemy zamiast τ-b i ρ wtedy, gdy sądzimy, że analizowany związek jednak jest przyczynowo-skutkowy. Ostrożnie!

Nominalna x Nominalna/Porządkowa φ Yula (phi)

Wykorzystujemy wtedy, gdy każda ze zmiennych przyjmuje 2 wartości. Na przykład gdy korelujemy płeć (kobieta/mężczyzna) i posiadanie kota (tak/nie).

Przykładowa hipoteza: Istnieje związek pomiędzy płcią a posiadaniem kota.

V Cramera

Korzystamy z niego wtedy, gdy zmienne mają różną ilość wartości. Na przykład płeć (kobieta/mężczyzna) oraz ulubiona marka samochodu (Opel/Škoda/Peugot/BMW/Nissan).

Przykładowa hipoteza: Istnieje związek pomiędzy ulubioną marką samochodu a płcią.

C-kontyngencji

Jest współczynnikiem wykorzystywanym w sytuacji, w której zmienne przyjmują taką samą ilość wartości. Na przykład ulubione zwierzątko (kot/pies/ptak/żółw/koń) oraz ulubiona marka samochodu (Opel/Škoda/Peugot/BMW/Nissan).

Przykładowa hipoteza: Istnieje związek pomiędzy ulubionym zwierzątkiem a ulubioną marką samochodu.

Nadal Potrzebujesz

POMOCY W PISANIU ?

Nazywam się Dorota Wrona. Moją misją jest pomoc studentom. Skorzystaj z ponad 25 lat doświadczenia w pisaniu i redakcji tekstów naukowych

Umów się na darmowe konsultacje