Chi kwadrat - czym jest, kiedy go zastosować i jak obliczyć
Chi-kwadrat (χ²) – Co to jest i do czego służy?
Chi-kwadrat (χ²) to test statystyczny służący do analizy zależności między zmiennymi jakościowymi (kategorycznymi). Stosuje się go głównie w badaniach społecznych, psychologicznych i medycznych, gdy chcemy sprawdzić, czy istnieje istotna statystycznie różnica między oczekiwanymi a zaobserwowanymi wartościami w tabelach kontyngencji.
Kiedy stosujemy test chi-kwadrat?
- Badanie zależności między dwiema zmiennymi kategorycznymi – np. Czy palenie papierosów (tak/nie) jest związane z występowaniem chorób serca (tak/nie)?
- Testowanie zgodności rozkładu z rozkładem teoretycznym – np. Czy liczba urodzeń w poszczególnych miesiącach różni się istotnie od oczekiwanego równomiernego rozkładu?
- Analiza częstości w tabelach kontyngencji – np. Czy kobiety i mężczyźni różnią się w zakresie preferowanych kierunków studiów (humanistyczne/ścisłe)?
Wzór na Chi-kwadrat
Test porównuje zaobserwowane wartości (O) z wartościami oczekiwanymi (E) według wzoru:
χ² = ∑ ((O - E)² / E)
gdzie:
- O – zaobserwowana liczba przypadków w danej kategorii,
- E – oczekiwana liczba przypadków w danej kategorii (obliczona na podstawie rozkładu teoretycznego).
Im większa różnica między wartościami oczekiwanymi a rzeczywistymi, tym większa wartość chi-kwadrat, co może wskazywać na zależność między zmiennymi.
Czym są wartości oczekiwane i skąd je wziąć?
Wartości oczekiwane (E) w teście chi-kwadrat to teoretyczne liczby przypadków, które spodziewalibyśmy się zaobserwować w każdej kategorii, gdyby zmienne nie były ze sobą powiązane. Oblicza się je na podstawie rozkładu teoretycznego, zakładając brak zależności między analizowanymi zmiennymi.
Jak obliczyć wartości oczekiwane?
Wartości oczekiwane wylicza się według wzoru:
E = (suma wiersza × suma kolumny) / suma całkowita
gdzie:
- Suma wiersza – liczba przypadków w danym wierszu tabeli kontyngencji.
- Suma kolumny – liczba przypadków w danej kolumnie tabeli kontyngencji.
- Suma całkowita – łączna liczba wszystkich przypadków w tabeli.
Przykład obliczenia wartości oczekiwanej
Załóżmy, że badamy zależność między płcią (kobieta/mężczyzna) a preferencją co do rodzaju studiów (humanistyczne/ścisłe). Mamy następującą tabelę kontyngencji:
Humanistyczne | Ścisłe | Suma | |
---|---|---|---|
Kobiety | 40 | 20 | 60 |
Mężczyźni | 30 | 50 | 80 |
Suma | 70 | 70 | 140 |
Aby obliczyć wartość oczekiwaną dla kobiet wybierających studia humanistyczne, stosujemy wzór:
E = (suma wiersza × suma kolumny) / suma całkowita
E = (60 × 70) / 140 = 30
Analogicznie obliczamy wartości oczekiwane dla pozostałych komórek tabeli. Następnie porównujemy je z wartościami zaobserwowanymi (O), aby ocenić stopień dopasowania i przeprowadzić test chi-kwadrat.
Założenia testu chi-kwadrat
- Zmienne muszą być kategoryczne – test nie nadaje się do zmiennych ilościowych (np. wzrost, waga).
- Wartości oczekiwane powinny być ≥5 – jeśli w niektórych komórkach tabeli kontyngencji wartości są bardzo małe, lepiej użyć testu Fishera.
- Obserwacje muszą być niezależne – każda jednostka może należeć tylko do jednej kategorii.
Interpretacja wyników
Po obliczeniu wartości χ² sprawdzamy wartość p w tabeli chi-kwadrat:
- Jeśli p < 0,05 , odrzucamy hipotezę zerową → istnieje zależność między zmiennymi.
- Jeśli p ≥ 0,05, brak podstaw do odrzucenia hipotezy zerowej → brak istotnej zależności.
Przykład: W badaniu dotyczącym wpływu aktywności fizycznej na poziom stresu uzyskano χ² = 10, p = 0,02 → wniosek: istnieje istotna statystycznie zależność między aktywnością a stresem.
Rodzaje testów chi-kwadrat
- Test chi-kwadrat dla tabeli kontyngencji – bada zależność między dwiema zmiennymi jakościowymi.
- Test zgodności chi-kwadrat – sprawdza, czy rozkład zmiennej pasuje do oczekiwanego.
Test niezależności Chi-kwadrat / Test częstości (Tabela kontyngencji)
Test niezależności Chi-kwadrat pozwala sprawdzić, czy istnieje związek między dwiema zmiennymi kategorycznymi. W tym przykładzie analizujemy, czy płeć (kobieta/mężczyzna) ma związek z wyborem kierunku studiów (humanistyczne/ścisłe).
Dane obserwowane:
Humanistyczne | Ścisłe | Suma | |
---|---|---|---|
Kobiety | 50 | 30 | 80 |
Mężczyźni | 40 | 60 | 100 |
Suma | 90 | 90 | 180 |
Obliczanie wartości oczekiwanych:
Dla każdej komórki tabeli stosujemy wzór:
E = (Suma wiersza × Suma kolumny) / Suma wszystkich wartości
Przykładowo, dla kobiet wybierających kierunki humanistyczne:
E = (80 × 90) / 180 = 40
Macierz wartości oczekiwanych:
Humanistyczne | Ścisłe | Suma | |
---|---|---|---|
Kobiety | 40 | 40 | 80 |
Mężczyźni | 50 | 50 | 100 |
Suma | 90 | 90 | 180 |
Obliczanie wartości statystyki Chi-kwadrat
Po obliczeniu wartości oczekiwanych możemy przystąpić do obliczenia wartości statystyki Chi-kwadrat, używając wzoru:
χ² = ∑ ((O - E)² / E)
gdzie:
- O – zaobserwowana liczba przypadków w danej komórce.
- E – oczekiwana liczba przypadków w danej komórce.
Podstawiamy wartości do wzoru:
Humanistyczne | Ścisłe | |
---|---|---|
Kobiety | ((50 - 40)² / 40) = 2.5 | ((30 - 40)² / 40) = 2.5 |
Mężczyźni | ((40 - 50)² / 50) = 2 | ((60 - 50)² / 50) = 2 |
Obliczona wartość χ²:
χ² = 2.5 + 2.5 + 2 + 2 = 9
Interpretacja wyniku
Wartość χ² porównujemy z wartością krytyczną dla poziomu istotności α = 0.05 i odpowiednich stopni swobody:
- Liczba stopni swobody: (liczba wierszy - 1) × (liczba kolumn - 1) = (2 - 1) × (2 - 1) = 1
Jeśli wartość χ² przekracza wartość krytyczną, odrzucamy hipotezę zerową i uznajemy, że istnieje zależność między zmiennymi.
Test zgodności Chi-kwadrat
Test zgodności Chi-kwadrat służy do porównania zaobserwowanego rozkładu z rozkładem teoretycznym. W tym przykładzie analizujemy, czy liczba urodzeń w różnych miesiącach roku różni się od oczekiwanego równomiernego rozkładu.
Dane obserwowane:
O = [85, 78, 92, 80, 88, 85, 87, 90, 89, 95, 91, 84]
Obliczanie wartości oczekiwanych:
Zakładamy równomierny rozkład urodzeń w ciągu roku, więc oczekiwana liczba urodzeń w każdym miesiącu to:
E = (suma wszystkich urodzeń) / liczba miesięcy
E = (85 + 78 + 92 + 80 + 88 + 85 + 87 + 90 + 89 + 95 + 91 + 84) / 12 = 87.08
Macierz wartości oczekiwanych:
E = [87.08, 87.08, 87.08, 87.08, 87.08, 87.08, 87.08, 87.08, 87.08, 87.08, 87.08, 87.08]
Obliczanie wartości statystyki Chi-kwadrat
Po obliczeniu wartości oczekiwanych możemy przystąpić do obliczenia wartości statystyki Chi-kwadrat, używając wzoru:
χ² = ∑ ((O - E)² / E)
gdzie:
- O – zaobserwowana liczba przypadków w danej kategorii.
- E – oczekiwana liczba przypadków w danej kategorii.
Podstawiamy wartości do wzoru:
Miesiąc | O (zaobserwowane) | E (oczekiwane) | (O - E)² / E |
---|---|---|---|
Styczeń | 85 | 87.08 | ((85 - 87.08)² / 87.08) = 0.05 |
Luty | 78 | 87.08 | ((78 - 87.08)² / 87.08) = 0.95 |
Marzec | 92 | 87.08 | ((92 - 87.08)² / 87.08) = 0.28 |
Kwiecień | 80 | 87.08 | ((80 - 87.08)² / 87.08) = 0.58 |
Maj | 88 | 87.08 | ((88 - 87.08)² / 87.08) = 0.01 |
Czerwiec | 85 | 87.08 | ((85 - 87.08)² / 87.08) = 0.05 |
Lipiec | 87 | 87.08 | ((87 - 87.08)² / 87.08) = 0.00 |
Sierpień | 90 | 87.08 | ((90 - 87.08)² / 87.08) = 0.10 |
Wrzesień | 89 | 87.08 | ((89 - 87.08)² / 87.08) = 0.04 |
Październik | 95 | 87.08 | ((95 - 87.08)² / 87.08) = 0.72 |
Listopad | 91 | 87.08 | ((91 - 87.08)² / 87.08) = 0.18 |
Grudzień | 84 | 87.08 | ((84 - 87.08)² / 87.08) = 0.11 |
Obliczona wartość χ²:
χ² = 0.05 + 0.95 + 0.28 + 0.58 + 0.01 + 0.05 + 0.00 + 0.10 + 0.04 + 0.72 + 0.18 + 0.11 = 3.07
Interpretacja wyniku
Wartość χ² porównujemy z wartością krytyczną dla poziomu istotności α = 0.05 i odpowiednich stopni swobody:
- Liczba stopni swobody: liczba kategorii - 1 = 12 - 1 = 11
Jeśli wartość χ² przekracza wartość krytyczną, odrzucamy hipotezę zerową i uznajemy, że rozkład liczby urodzeń w miesiącach nie jest równomierny.
Podsumowanie
Test niezależności Chi-kwadrat: wartości oczekiwane pochodzą z iloczynu sum marginesowych.
Test zgodności Chi-kwadrat: wartości oczekiwane wynikają z przyjętego teoretycznego rozkładu (np. równomiernego).
Ograniczenia testu chi-kwadrat
- Wrażliwy na małe liczebności – wyniki mogą być niepewne, gdy wartości oczekiwane są niskie.
- Nie informuje o sile zależności – wykrywa różnicę, ale nie określa jej siły.
- Nie stosuje się do danych zależnych – dla danych zależnych lepszy jest test McNemara.
Nadal Potrzebujesz
POMOCY W PISANIU ?
Nazywam się Dorota Wrona. Moją misją jest pomoc studentom. Skorzystaj z ponad 25 lat doświadczenia w pisaniu i redakcji tekstów naukowych
Umów się na darmowe konsultacje