Chi kwadrat - czym jest, kiedy go zastosować i jak obliczyć

Chi-kwadrat (χ²) – Co to jest i do czego służy?

Chi-kwadrat (χ²) to test statystyczny służący do analizy zależności między zmiennymi jakościowymi (kategorycznymi). Stosuje się go głównie w badaniach społecznych, psychologicznych i medycznych, gdy chcemy sprawdzić, czy istnieje istotna statystycznie różnica między oczekiwanymi a zaobserwowanymi wartościami w tabelach kontyngencji.

Kiedy stosujemy test chi-kwadrat?

Badanie zależności między dwiema zmiennymi kategorycznymi – np. Czy palenie papierosów (tak/nie) jest związane z występowaniem chorób serca (tak/nie)?
Testowanie zgodności rozkładu z rozkładem teoretycznym – np. Czy liczba urodzeń w poszczególnych miesiącach różni się istotnie od oczekiwanego równomiernego rozkładu?
Analiza częstości w tabelach kontyngencji – np. Czy kobiety i mężczyźni różnią się w zakresie preferowanych kierunków studiów (humanistyczne/ścisłe)?

Wzór na Chi-kwadrat

Test porównuje zaobserwowane wartości (O) z wartościami oczekiwanymi (E) według wzoru:

χ² = ∑ ((O - E)² / E)

gdzie:

O – zaobserwowana liczba przypadków w danej kategorii,
E – oczekiwana liczba przypadków w danej kategorii (obliczona na podstawie rozkładu teoretycznego).

Im większa różnica między wartościami oczekiwanymi a rzeczywistymi, tym większa wartość chi-kwadrat, co może wskazywać na zależność między zmiennymi.

Czym są wartości oczekiwane i skąd je wziąć?

Wartości oczekiwane (E) w teście chi-kwadrat to teoretyczne liczby przypadków, które spodziewalibyśmy się zaobserwować w każdej kategorii, gdyby zmienne nie były ze sobą powiązane. Oblicza się je na podstawie rozkładu teoretycznego, zakładając brak zależności między analizowanymi zmiennymi.

Jak obliczyć wartości oczekiwane?

Wartości oczekiwane wylicza się według wzoru:

E = (suma wiersza × suma kolumny) / suma całkowita

gdzie:

Suma wiersza – liczba przypadków w danym wierszu tabeli kontyngencji.
Suma kolumny – liczba przypadków w danej kolumnie tabeli kontyngencji.
Suma całkowita – łączna liczba wszystkich przypadków w tabeli.

Przykład obliczenia wartości oczekiwanej

Załóżmy, że badamy zależność między płcią (kobieta/mężczyzna) a preferencją co do rodzaju studiów (humanistyczne/ścisłe). Mamy następującą tabelę kontyngencji:

	Humanistyczne	Ścisłe	Suma
Kobiety	40	20	60
Mężczyźni	30	50	80
Suma	70	70	140

Aby obliczyć wartość oczekiwaną dla kobiet wybierających studia humanistyczne, stosujemy wzór:

E = (suma wiersza × suma kolumny) / suma całkowita

E = (60 × 70) / 140 = 30

Analogicznie obliczamy wartości oczekiwane dla pozostałych komórek tabeli. Następnie porównujemy je z wartościami zaobserwowanymi (O), aby ocenić stopień dopasowania i przeprowadzić test chi-kwadrat.

Założenia testu chi-kwadrat

Zmienne muszą być kategoryczne – test nie nadaje się do zmiennych ilościowych (np. wzrost, waga).
Wartości oczekiwane powinny być ≥5 – jeśli w niektórych komórkach tabeli kontyngencji wartości są bardzo małe, lepiej użyć testu Fishera.
Obserwacje muszą być niezależne – każda jednostka może należeć tylko do jednej kategorii.

Interpretacja wyników

Po obliczeniu wartości χ² sprawdzamy wartość p w tabeli chi-kwadrat:

Jeśli p < 0,05 , odrzucamy hipotezę zerową → istnieje zależność między zmiennymi.
Jeśli p ≥ 0,05, brak podstaw do odrzucenia hipotezy zerowej → brak istotnej zależności.

Przykład: W badaniu dotyczącym wpływu aktywności fizycznej na poziom stresu uzyskano χ² = 10, p = 0,02 → wniosek: istnieje istotna statystycznie zależność między aktywnością a stresem.

Rodzaje testów chi-kwadrat

Test chi-kwadrat dla tabeli kontyngencji – bada zależność między dwiema zmiennymi jakościowymi.
Test zgodności chi-kwadrat – sprawdza, czy rozkład zmiennej pasuje do oczekiwanego.

Test niezależności Chi-kwadrat / Test częstości (Tabela kontyngencji)

Test niezależności Chi-kwadrat pozwala sprawdzić, czy istnieje związek między dwiema zmiennymi kategorycznymi. W tym przykładzie analizujemy, czy płeć (kobieta/mężczyzna) ma związek z wyborem kierunku studiów (humanistyczne/ścisłe).

Dane obserwowane:

	Humanistyczne	Ścisłe	Suma
Kobiety	50	30	80
Mężczyźni	40	60	100
Suma	90	90	180

Obliczanie wartości oczekiwanych:

Dla każdej komórki tabeli stosujemy wzór:

E = (Suma wiersza × Suma kolumny) / Suma wszystkich wartości

Przykładowo, dla kobiet wybierających kierunki humanistyczne:

E = (80 × 90) / 180 = 40

Macierz wartości oczekiwanych:

	Humanistyczne	Ścisłe	Suma
Kobiety	40	40	80
Mężczyźni	50	50	100
Suma	90	90	180

Obliczanie wartości statystyki Chi-kwadrat

Po obliczeniu wartości oczekiwanych możemy przystąpić do obliczenia wartości statystyki Chi-kwadrat, używając wzoru:

χ² = ∑ ((O - E)² / E)

gdzie:

O – zaobserwowana liczba przypadków w danej komórce.
E – oczekiwana liczba przypadków w danej komórce.

Podstawiamy wartości do wzoru:

	Humanistyczne	Ścisłe
Kobiety	((50 - 40)² / 40) = 2.5	((30 - 40)² / 40) = 2.5
Mężczyźni	((40 - 50)² / 50) = 2	((60 - 50)² / 50) = 2

Obliczona wartość χ²:

χ² = 2.5 + 2.5 + 2 + 2 = 9

Interpretacja wyniku

Wartość χ² porównujemy z wartością krytyczną dla poziomu istotności α = 0.05 i odpowiednich stopni swobody:

Liczba stopni swobody: (liczba wierszy - 1) × (liczba kolumn - 1) = (2 - 1) × (2 - 1) = 1

Jeśli wartość χ² przekracza wartość krytyczną, odrzucamy hipotezę zerową i uznajemy, że istnieje zależność między zmiennymi.

Test zgodności Chi-kwadrat

Test zgodności Chi-kwadrat służy do porównania zaobserwowanego rozkładu z rozkładem teoretycznym. W tym przykładzie analizujemy, czy liczba urodzeń w różnych miesiącach roku różni się od oczekiwanego równomiernego rozkładu.

Dane obserwowane:

O = [85, 78, 92, 80, 88, 85, 87, 90, 89, 95, 91, 84]

Obliczanie wartości oczekiwanych:

Zakładamy równomierny rozkład urodzeń w ciągu roku, więc oczekiwana liczba urodzeń w każdym miesiącu to:

E = (suma wszystkich urodzeń) / liczba miesięcy

E = (85 + 78 + 92 + 80 + 88 + 85 + 87 + 90 + 89 + 95 + 91 + 84) / 12 = 87.08

Macierz wartości oczekiwanych:

E = [87.08, 87.08, 87.08, 87.08, 87.08, 87.08, 87.08, 87.08, 87.08, 87.08, 87.08, 87.08]

Obliczanie wartości statystyki Chi-kwadrat

Po obliczeniu wartości oczekiwanych możemy przystąpić do obliczenia wartości statystyki Chi-kwadrat, używając wzoru:

χ² = ∑ ((O - E)² / E)

gdzie:

O – zaobserwowana liczba przypadków w danej kategorii.
E – oczekiwana liczba przypadków w danej kategorii.

Podstawiamy wartości do wzoru:

Miesiąc	O (zaobserwowane)	E (oczekiwane)	(O - E)² / E
Styczeń	85	87.08	((85 - 87.08)² / 87.08) = 0.05
Luty	78	87.08	((78 - 87.08)² / 87.08) = 0.95
Marzec	92	87.08	((92 - 87.08)² / 87.08) = 0.28
Kwiecień	80	87.08	((80 - 87.08)² / 87.08) = 0.58
Maj	88	87.08	((88 - 87.08)² / 87.08) = 0.01
Czerwiec	85	87.08	((85 - 87.08)² / 87.08) = 0.05
Lipiec	87	87.08	((87 - 87.08)² / 87.08) = 0.00
Sierpień	90	87.08	((90 - 87.08)² / 87.08) = 0.10
Wrzesień	89	87.08	((89 - 87.08)² / 87.08) = 0.04
Październik	95	87.08	((95 - 87.08)² / 87.08) = 0.72
Listopad	91	87.08	((91 - 87.08)² / 87.08) = 0.18
Grudzień	84	87.08	((84 - 87.08)² / 87.08) = 0.11

Obliczona wartość χ²:

χ² = 0.05 + 0.95 + 0.28 + 0.58 + 0.01 + 0.05 + 0.00 + 0.10 + 0.04 + 0.72 + 0.18 + 0.11 = 3.07

Interpretacja wyniku

Wartość χ² porównujemy z wartością krytyczną dla poziomu istotności α = 0.05 i odpowiednich stopni swobody:

Liczba stopni swobody: liczba kategorii - 1 = 12 - 1 = 11

Jeśli wartość χ² przekracza wartość krytyczną, odrzucamy hipotezę zerową i uznajemy, że rozkład liczby urodzeń w miesiącach nie jest równomierny.

Podsumowanie

Test niezależności Chi-kwadrat: wartości oczekiwane pochodzą z iloczynu sum marginesowych.

Test zgodności Chi-kwadrat: wartości oczekiwane wynikają z przyjętego teoretycznego rozkładu (np. równomiernego).

Ograniczenia testu chi-kwadrat

Wrażliwy na małe liczebności – wyniki mogą być niepewne, gdy wartości oczekiwane są niskie.
Nie informuje o sile zależności – wykrywa różnicę, ale nie określa jej siły.
Nie stosuje się do danych zależnych – dla danych zależnych lepszy jest test McNemara.

Nadal Potrzebujesz

POMOCY W PISANIU ?

Nazywam się Dorota Wrona. Moją misją jest pomoc studentom. Skorzystaj z ponad 25 lat doświadczenia w pisaniu i redakcji tekstów naukowych

Umów się na darmowe konsultacje