Co to są testy różnic? Który test wybrać?

Wybierz właściwy test różnic.

Mówiąc najprościej – testy różnic sprawdzają różnice. Mogą powiedzieć, jak badani różnią się między sobą, np. czy istnieje różnica w poziomie stresu pomiędzy pielęgniarkami a strażakami? Mogą też powiedzieć, czy jakaś nasza zmienna ulega zmianie w skutek naszej manipulacji, np. czy poziom stresu u pielęgniarek różni się przed i po zastosowaniu treningu radzenia sobie ze stresem?

To znaczy, że wykonując test różnic dążymy do określenia, który wynik jest wyższy i czy jest wyższy o tyle, żeby było to istotne statystycznie.

t-Studenta

Najważniejszy, najsilniejszy i najbardziej rzetelny jest oczywiście test parametryczny czyli t-Studenta. Planując badanie dążymy do tego, żeby skorzystać z właśnie tego testu. A jeśli nie jest to możliwe – wykorzystujemy któryś z testów nieparametrycznych. Podobnie jak w przypadku korelacji, w przypadku testów różnic również wybór testu zależy od skali pomiarowej.

Istnieją trzy rodzaje testów różnic:

  • test t-Studenta dla prób niezależnych, czyli taki, który porównuje średnie w dwóch grupach, a pomiar w jednej grupy musi być niezależny od pomiaru w drugiej grupie. Na przykład kiedy chcemy porównać jakie są różnice w poziomie stresu pomiędzy pielęgniarkami a strażakami albo dowolnymi innymi grupami (kobiety/mężczyźni, grupa kontrolna/grupa eksperymentalna). Ten test wykonamy dla na przykład takich hipotez:

H1: Istnieją różnice w poziomie stresu pomiędzy pielęgniarkami a strażakami;

H2: Istnieją różnice w wylewności pomiędzy kobietami a mężczyznami;

H3: Pielęgniarki po szkoleniu z radzenia sobie ze stresem (grupa eksperymentalna) mają niższy poziom odczuwanego stresu niż pielęgniarki, które nie brały udziału w szkoleniu (grupa kontrolna). 

  • test t-Sudenta dla prób zależnych, w wypadku którego porównywane próby pozostają ze sobą w zależności, to znaczy, że średnie pochodzą z dwóch pomiarów. Może to być pomiar przed i po eksperymencie (test/retest), czy też pomiar tej samej zmiennej w dwóch warunkach (np. wykonanie tego samego pomiaru z ingerencją lub bez niej). Ważne jest jednak to, że porównujemy pomiędzy sobą wyniki uzyskane od tego samego badanego. Z tego testu skorzystamy na przykład weryfikując hipotezy:

H1: W grupie pielęgniarek istnieje różnica w poziomie stresu przed i po zastosowaniu treningu radzenia sobie ze stresem.

H2: Wśród strażaków istnieje różnica w poziomie stresu przed podjęciem pracy a po przepracowaniu roku.

H3: Istnieje różnica w motywacji do wyjścia z nałogu u osób uzależnionych od alkoholu pomiędzy momentem przyjęcia na leczenie a stanem po ukończeniu leczenia ambulatoryjnego.

  • test t-Studenta dla jednej próby, ten test możemy wykorzystać, gdy sprawdzamy jaka jest różnica pomiędzy wynikiem naszych badanych, a wynikiem, który znamy z badań wcześniejszych. Jeśli wiemy, że średni poziom stresu u pielęgniarek z francji, anglii i stanów wynosił 33, 32 i 36 możemy sprawdzić, czy otrzymane przez nas wyniki pielęgniarek polskich istotnie się od nich różnią. Przykładowe hipotezy:

H1: Poziom stresu polskich pielęgniarek nie różni się istotnie od poziomu stresu pielęgniarek francuskich, angielskich i amerykańskich.

H2: Istnieje różnica między wynikami matury rozszerzonej z języka angielskiego w prywatnym liceum anglojęzycznym w Warszawie a średnią ogólnopolską.

H3: Istnieje różnica w wysokości zarobków pomiędzy nauczycielami szkół prywatnych a nauczycielami szkół państwowych.

Istotność testu

W przypadku testów różnic w pierwszej kolejności określamy, czy wynik jest istotny. Oczywiście mowa tutaj o dobrze wszystkim znanym p < 0,05 czyli istotności testu. Wskazana wartość (0,05) jest wykorzystywana powszechnie i najprawdopodobniej idealna do Twojej pracy dyplomowej.

A czy wiesz, co oznacza?

Wartość p informuje nas, że z danym prawdopodobieństwem nasz wynik jest dziełem przypadku. Czyli jeżeli nasze p = 0,05 to istnieje 5% prawdopodobieństwa, że siła i kierunek korelacji wynikają z przypadku oraz 95%, że są wynikiem naszego badania. 

Różnice średnich

Wiedząc, że wynik testu różnic jest istotny dokonujemy analizy średnich. Niezależnie od tego, czy jest to średnia w ramach różnych grup czy różnych zmiennych (np. dwóch pomiarów jednej zmiennej) – sprawdzamy, która ze średnich jest wyższa, a która niższa i dokonujemy analizy. Więcej o tym będziemy mówić później, w odrębnych artykułach poświęconych poszczególnym testom różnic i ich wykonaniu.

Miara wielkości efektu

Wyniki testu t-Studenta są wrażliwe na wielkość próby. To znaczy, że nawet duża różnica może nie wyjść istotna przy zbyt małej próbie, a nawet bardzo mała różnica może wyjść istotna przy wystarczająco dużej próbie.

I co z tym zrobić?

W tym celu obliczamy dodatkowo miarę wielkości efektu, która informuje o tym, jaka jest siła związku pomiędzy zmiennymi i nie jest zależna od wielkości próby.

Przeważnie w tym celu oblicza się statystykę d Cohena. Co ważne – jej wartość nie jest ograniczona i może przyjmować wartości większe od 1. Jednakże wynik interpretujemy następująco:

około 0,20 – mała wielkość efektu,

około 0,50 – średnia wielkość efektu,

powyżej 0,80 – duża wielkość efektu.

Właściwy test różnic dla Ciebie

Testy różnic wybieramy nie tylko ze względu na wykorzystaną skalę pomiarową, ale także ze względu na to, czy badane były różne grupy, czy też jedna. Na początku przedstawiam schemat wyboru, a poniżej opisałam szczegółowo poszczególne.

Różne grupy

Skala ilościowa

W przypadku dwóch grup:

test t dla prób niezależnych

            Wykorzystujemy wtedy, gdy porównujemy ze sobą dwie zmienne na skali ilościowej. Ponieważ jest to test parametryczny, musi spełnić wymagania o:

1) równoliczności grup,

2) normalności rozkładu zmiennej zależnej,

3) homogeniczności wariancji.

Jednakże nie są to wymagania absolutne. Należy jednak uważać i ograniczyć zaufanie do wyników, jeżeli złamane jest jednocześnie założenie 2 i 3, LUB jeżeli przy złamaniu założenia 1 złamane jest także 2 i 3. Jednakże wynik jest odporny na złamanie pojedynczego założenia. Można dodatkowo próbować sobie radzić ze złamanym założeniem np. poprzez logarytmizację rozkładu, który nie jest zbliżony do normalnego.

Przykładowa hipoteza: Istnieje różnica w zakresie samooceny między mężczyznami pracującymi a bezrobotnymi.

test t Cochrana-Coxa

Jest to poprawka do testu t dla prób niezależnych, którą stosuje się w sytuacji, w której stwierdzono brak homogeniczności (jednorodności) wariancji. Czyli wtedy, gdy nie zostało spełnione założenie 3.

W przypadku więcej niż dwóch grup:

1-czynnikowa ANOVA

            Jednoczynnikowa ANOVA może brzmieć strasznie, ale tak naprawdę – to nic strasznego. Jest to jednoczynnikowa analiza wariancji.

Jednoczynnikowa – ponieważ ma jedną zmienną niezależną. W tym wypadku czynnik to zmienna niezależna. To znaczy, że mamy jedną zmienną nominalną, która określa etykiety dla badanych grup. Zasadniczo ten test stosujemy, gdy etykiet jest więcej niż dwie (np. iloraz inteligencji: niski, średni, wysoki). Jednak tak naprawdę jeśli są dwie – to też nic się nie stanie. Wtedy wyniki odpowiadają tym z testu t Studenta. Przyjęło się, by t Studenta stosować dla dwóch grup, a jednoczynnikową analizę wariancji – dla więcej niż dwóch.

Analiza wariancji, ponieważ ANOVA to z angielskiego analysis od variance. Analiza wariancji polega na porównaniu zmienności wyników. ANOVA sprawdza, czy jeśli podzielimy wyniki na grupy zgodnie ze zmienną niezależną, to wariancja (zmienność wyników) między grupami (np. ilorazem inteligencji niskim, średnim i wysokim) będzie wyższa niż wariancja wewnątrz grup. Jeśli tak – to znaczy, że taki podział wyjaśnia różnice w zakresie analizowanej zmiennej zależnej (np. wynikach akademickich czy też wysokości zarobków).

Jakie są założenia?

Oczywiście zmienna zależna musi być na skali ilościowej. Poza tym:

  1. rozkład wyników w każdej grupie powinien być zbliżony do rozkładu normalnego,
  2. zmienna niezależna powinna przyjmować przynajmniej dwa poziomy (w praktyce – trzy, bo dla dwóch wykorzystujemy t Studenta),
  3. jednorodność wariancji w grupach – czyli w analizowanych grupach zróżnicowanie wyników powinno być podobne,
  4. porównywane grupy powinny być równoliczne,
  5. minimum 30 osób w każdej grupie.

Również w tym wypadku możemy sobie radzić ze złamanymi założeniami.

Jeśli złamane jest założenie 1 o normalności rozkładu. Warto w tym wypadku sprawdzić zarówno wartość testu normalności (Shapiro-Wilka lub Kołogomorowa-Smirnowa) oraz skośności i kurtozy. W przypadku gdy nie są właściwe – można przeprowadzić logarytmizację lub potęgowanie i sprawdzić, czy to pomoże. Gdyby to nie pomogło – pozostają nam testy nieparametryczne.

Jeśli złamane jest założenie 2 o ilości poziomów wartości zmiennej niezależnej to po prostu nie mamy czego porównywać 😉

W przypadku gdy złamane jest założenie 3 o jednorodności wariancji. Jednorodność oceniamy na podstawie wyniku testu Levene’a. W takiej sytuacji wykonujemy dodatkowo test Browna-Forsythe’a i Welcha. Co więcej – wybieramy trochę inne opcje w przypadku testów post-hoc (jednoczynnikowa ANOVA: wielokrotne założenia o równości wariancji – ale o tym więcej później).

Jeżeli złamane jest założenie 4 o równoliczności grup można poradzić sobie z tym na dwa sposoby. Albo dobadać więcej osób, albo losując z większej grupy mniejszą pulę, odpowiadającą wielkością mniejszej grupie. Oczywiście nie chodzi tu o różnice 2-3 osób. Równoliczność sprawdzamy testem χ2 (chi kwadrat).

Przykładowa hipoteza: Istnieją różnice w wynikach akademickich pomiędzy osobami o niskim, średnim oraz wysokim ilorazie inteligencji.

Skala porządkowa

W przypadku dwóch grup:

U Manna-Whitney’a

To popularny test wykorzystywany jako alternatywna dla testu t Studenta, kiedy nie zostały spełnione założenia związane z parametrycznością testu (równoliczność grup, normalność rozkładu, homogeniczność wariancji). Jednocześnie można z niego korzystać wtedy, gdy:

– zmienna zależna jest na skali porządkowej,

– zmienna zależna jest na skali nominalnej typu 0-1, ponieważ skala dychotomiczna również jest skalą porządkową.

U Manna-Whitneya ranguje wyniki od najmniejszego do największego, a następnie porównuje grupy. Jest najsilniejszym testem nieparametrycznym.

Przykładowa hipoteza: Istnieją różnice pomiędzy kobietami a mężczyznami w zakresie poziomu wykształcenia (skala porządkowa: podstawowe, zawodowe, średnie, wyższe).

z Kołogomorowa-Smirnowa

Z Kołogomorowa-Smirnowa porównuje rozkład zmiennej dla obu grup (jego kształt i położenie). Wylicza dla tych rozkładów największą różnicę.

Serii Wala-Wolfowitza

Porządkuje dane zgodnie ze zmienną zależną. Na tej podstawie wyodrębnia serie, które następnie porównuje.

W przypadku więcej niż dwóch grup:

H Kruskalla-Wallisa

            Stanowi nieparametryczną wersję jednoczynnikowej analizy wariancji. Wykorzystujemy go, gdy dane jakościowe nie spełniają wymagań parametrycznych ALBO gdy analizowane dane mają charakter porządkowy. Można go wykorzystywać wyłącznie dla grup niezależnych (jest niewłaściwy dla powtarzanego pomiaru). Opiera się na porównaniu median, a nie wariancji. Stąd też analizując wyniki patrzymy nie na średnią – ale na medianę.  W tym przypadku także musimy wykonać testy post-hoc (Dunna).

Przykładowa hipoteza: Istnieje różnica w poziomie kwalifikacji (I, II lub III) pomiędzy pielęgniarkami o różnych specjalizacjach.

Skala nominalna

W przypadku dwóch grup:

χ2 Pearsona (chi kwadrat)

Stosowany w przypadku dwóch grup dla skali nominalnej. Test opiera się na porównaniu wartości empirycznych z wartościami oczekiwanymi. Wartości oczekiwane zakładają brak różnic. Im bardziej więc empiryczne odbiegają od wartości oczekiwanych – tym bardziej istotna jest wartość testu. Jedynym warunkiem wykorzystania testu są wystarczająco duże liczebności prób (minimum 5). W innym wypadku wynik może okazać się nieprecyzyjny.

Przykładowa hipoteza: Istnieją różnice między kobietami a mężczyznami w zakresie preferencji marki samochodu (np. Nissan i Volvo).

χ2 największej wiarygodności (chi kwadrat)

Test χ2 największej wiarygodności testuje tę samą hipotezę co χ2 Pearsona, jednak różni się drogą dochodzenia do wyniku. W tym wypadku bowiem obliczenia opierają się na teorii największej wiarygodności (jak sama nazwa wskazuje).

test z Fishera

Wykonuje się go jedynie w przypadku tabel 2 na 2 (czyli każda zmienna może przyjąć jedynie dwie wartości).

W przypadku więcej niż dwóch grup:

χ2 Pearsona (chi kwadrat)

Jak wyżej.

χ2 największej wiarygodności (chi kwadrat)

Jak wyżej.

Ta sama grupa

Skala ilościowa

W przypadku dwóch zmiennych:

test t dla danych zależnych

Wykorzystywany wtedy, gdy posiadamy dwa pomiary pochodzące od tej samej grupy badanych (np. pretest-posttest) albo wtedy, gdy chcemy sprawdzić różnice w zakresie tego, jak osoba widzi siebie na tle innych. I tym podobne. Założenia są takie, jak w przypadku testu t dla danych zależnych.

Przykładowa hipoteza: Polskie pielęgniarki oceniają swój poziom stresu jako wyższy, niż poziom stresu przeciętnego Polaka.

W przypadku więcej niż dwóch zmiennych:

ANOVA z powtarzanym pomiarem

Może to być ANOVA 1- lub wieloczynnikowa. To znaczy, że zmiennych niezależnych możemy mieć więcej, niż jedną. Jednak nie ma takiej konieczności. W zupełności wystarczy jedna. Drugą różnicą jest natomiast to, że zamiast dwóch grup – badamy jedną grupę, która jest badana dwukrotnie. Na tym polega zasadnicza różnica.

Przykładowa hipoteza: Pielęgniarki osiągają niższe wyniki w skali odczuwanego stresu przed i po treningu radzenia sobie ze stresem (powtarzany pomiar).

Skala porządkowa

W przypadku dwóch zmiennych:

T Wilcoxona

To test w swojej naturze zbliżony do t Studenta dla prób zależnych i stosujemy go jako nieparametryczny odpowiednik t Studenta lub wtedy, gdy mamy zmienne na skali porządkowej. W przypadku tego testu raportować należy mediany, nie średnie!

Przykładowa hipoteza: Polskie pielęgniarki oceniają swój poziom stresu jako wyższy, niż poziom stresu przeciętnego Polaka.

test znaków

Koncentruje się na porównaniu znaków pomiędzy parami wyników (minusów i plusów). Jednakże traci wartości liczbowe.

W przypadku więcej niż dwóch zmiennych:

Friedmana

Stanowi nieparametryczny odpowiednik analizy wariancji z powtarzanym pomiarem. Dostarcza informacji o tym, że przynajmniej jedna para z zadanych do analizy pomiarów jest istotnie różna od pozostałych. Żeby dowiedzieć się która dokładnie – należy wykonać serię testów T Wilcoxona.

Przykładowa hipoteza: Pielęgniarki osiągają niższe wyniki w skali odczuwanego stresu przed i po treningu radzenia sobie ze stresem (powtarzany pomiar).

Skala nominalna

W przypadku dwóch zmiennych:

χ2 McNemara (chi kwadrat)

Jest przeznaczony do analizy danych, w których próbki zależne przyjmują wartość 2×2.

Przykładowa hipoteza: Istnieją różnice pomiędzy ilością studentów, którzy zdali test sprawdzianu wiedzy przed i po kursie ze statystyki.

W przypadku więcej niż dwóch zmiennych:

Q Cochrana

Stanowi rozszerzenie testu McNemara na więcej niż dwa pomiary.

Przykładowa hipoteza: Istnieją różnice pomiędzy ilością studentów, którzy zdali test sprawdzianu wiedzy przed kursem ze statystyki, bezpośrednio po nim i po upływie pół roku po zakończeniu kursu.


AUTOR
Katarzyna Bat

Magister psychologii, wielokrotna laureatka stypendium Ministra Edukacji, Rektora KUL oraz Marszałka Województwa Lubelskiego. Założycielka platformy YouExpert i współwłaściciel programu antyplagiatowego „JSA – demo”, przeznaczonego do samodzielnego sprawdzenia pracy pod kątem plagiatu.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *