Czy rozkład danych jest normalny?

Dorota Wrona

W pracach dyplomowych, szczególnie tych opartych na badaniach empirycznych, istotne jest stosowanie odpowiednich narzędzi statystycznych, które umożliwiają analizę rozkładu danych. Sprawdzanie normalności rozkładu jest kluczowe, ponieważ wybór metod statystycznych – takich jak testy parametryczne lub nieparametryczne – zależy od charakterystyki rozkładu zmiennych.

Co to jest rozkład normalny?

Rozkład normalny, zwany również rozkładem Gaussa lub rozkładem Gaussowskim, to jedno z najważniejszych pojęć w statystyce i probabilistyce. Jest to rozkład ciągły o charakterystycznym, symetrycznym kształcie dzwonowym. Rozkład normalny opisuje, jak zmienne losowe rozkładają się wokół wartości średniej, przy czym wartości bliższe średniej mają największe prawdopodobieństwo wystąpienia, a wartości bardziej oddalone od średniej – mniejsze.

Matematycznie, rozkład normalny definiowany jest przez funkcję gęstości prawdopodobieństwa, której wzór to:

            f(x) = (1 / √(2πσ²)) * e^(-(x - μ)² / (2σ²))

gdzie:

μ to średnia (wartość oczekiwana) rozkładu, czyli punkt centralny krzywej,
σ to odchylenie standardowe, które określa szerokość rozkładu (im większe odchylenie standardowe, tym bardziej „rozmyty” jest rozkład).

Właściwości rozkładu normalnego:

Symetria względem średniej – rozkład normalny jest symetryczny wokół wartości średniej μ.
Jedna moda – środek rozkładu stanowi jednocześnie punkt najbardziej prawdopodobny (modę).
Określona powierzchnia pod krzywą – cała powierzchnia pod krzywą gęstości wynosi 1, co odzwierciedla całkowite prawdopodobieństwo zdarzeń.
Reguła trzech sigm – w przybliżeniu:
- 68% danych mieści się w zakresie jednej odchylenia standardowego od średniej (μ ± σ),
- 95% w zakresie dwóch odchyleń standardowych (μ ± 2σ),
- 99,7% w zakresie trzech odchyleń standardowych (μ ± 3σ).

Znaczenie rozkładu normalnego

Rozkład normalny jest szeroko stosowany w naukach społecznych, psychologii i pielęgniarstwie jako model rozkładu wielu naturalnie występujących zjawisk. Ze względu na twierdzenie centralne graniczne, rozkład normalny może także opisywać sumy dużych ilości niezależnych zmiennych losowych o różnych rozkładach – dlatego często występuje w analizie statystycznej jako model przybliżony.

Jak sprawdzić, czy rozkład jest normalny?

Analiza rozkładów danych jest niezbędnym elementem każdej pracy naukowej, która bazuje na analizie statystycznej. Rozkłady normalne, skośne, dwumodalne, leptokurtyczne i platykurtyczne dostarczają cennych informacji o charakterystyce danych i pomagają w doborze odpowiednich metod analizy. Dzięki zrozumieniu rozkładów badacz może lepiej interpretować wyniki i wyciągać bardziej trafne wnioski, co jest kluczowe w procesie pisania prac dyplomowych.

Testy statystyczne na normalność rozkładu

Testy statystyczne są najczęściej używanymi metodami w celu sprawdzenia normalności rozkładu danych. Najpopularniejsze testy to:

Test Kołmogorowa-Smirnowa: Porównuje rozkład empiryczny z rozkładem normalnym. Jeśli wynik testu jest istotny statystycznie (p 0,05), oznacza to, że rozkład zmiennej różni się od rozkładu normalnego. Jest jednak wrażliwy na duże próbki, co może prowadzić do fałszywego odrzucenia normalności w większych zbiorach danych.
Test Shapiro-Wilka: Jest bardziej dokładny w przypadku małych próbek. Wynik testu Shapiro-Wilka wskazuje, czy odchylenie od normalności jest istotne statystycznie. Istotny wynik (p 0,05) sugeruje, że rozkład zmiennej różni się od normalnego.

Sprawdź normalność rozkładu Twoich zmiennych w naszym KALKULATORZE ONLINE

2. Analiza skośności i kurtozy

Skośność i kurtoza to dwie miary, które dostarczają informacji o kształcie rozkładu:

Skośność: Mierzy asymetrię rozkładu. Rozkład o dodatniej skośności (skośność prawostronna) ma ogon po prawej stronie, a rozkład o ujemnej skośności (skośność lewostronna) ma ogon po lewej stronie.
Kurtoza: Mierzy spłaszczenie rozkładu w porównaniu do rozkładu normalnego. Leptokurtyczny rozkład ma bardziej stromy szczyt, a platykurtyczny jest bardziej płaski.

Za wystarczająco zbliżony do normalnego można uznać rozkład, w którym wartości skośności i kurtozy mieszczą się w przedziale od -2 do 2.

3. Wizualne sprawdzenie rozkładu

Wizualizacja rozkładu danych za pomocą różnych wykresów to jedna z najprostszych metod na ocenę, czy rozkład jest normalny:

Histogram: Pokazuje liczbę obserwacji w każdej kategorii lub przedziale danych. Rozkład normalny przyjmuje charakterystyczny kształt dzwonu. Jeśli histogram jest asymetryczny lub ma więcej niż jeden szczyt, rozkład nie jest normalny.
Wykres normalny (Q-Q plot): Wykres kwantyli kwantylowych (Q-Q plot) porównuje rozkład empiryczny z rozkładem normalnym. Punkty na wykresie powinny układać się w linię prostą, jeśli dane mają rozkład normalny. Odchylenia od linii sugerują brak normalności.

Zobacz interaktywny wykres

4. Miary tendencji centralnej i rozproszenia

Warto także ocenić miary tendencji centralnej (średnia, mediana, moda) oraz zmienności (odchylenie standardowe). W rozkładzie normalnym średnia, mediana i moda są równe, a odchylenie standardowe opisuje rozproszenie wyników wokół średniej. Jeśli wartości te różnią się znacząco, może to sugerować, że rozkład nie jest normalny.

5. Symetria ogonów rozkładu

Rozkład normalny charakteryzuje się symetrycznymi ogonami. Analiza kształtu ogonów rozkładu na histogramie lub wykresie pudełkowym może dostarczyć informacji o normalności rozkładu. Dłuższy ogon po jednej stronie sugeruje skośność, a tym samym odchylenie od normalności.

Podsumowanie

Sprawdzenie normalności rozkładu jest ważnym krokiem w analizie danych, ponieważ wiele testów statystycznych, takich jak test t-Studenta czy analiza wariancji (ANOVA), zakłada, że dane mają rozkład normalny. Jeśli rozkład nie jest normalny, zaleca się stosowanie testów nieparametrycznych, takich jak test Manna-Whitneya lub Kruskala-Wallisa. Połączenie testów statystycznych i wizualnych metod daje pełniejszy obraz rozkładu danych, co pozwala na bardziej precyzyjne wnioskowanie w badaniach.

Rozkład zmiennych w badanej próbie

W tabeli 5 przedstawiono statystyki opisowe dla analizowanych zmiennych wraz z testami normalności. Zgodnie z praktyką przyjęto, że nawet jeżeli wynik testu normalności wskazuje na to, że rozkład zmiennej istotnie różni się od normalnego, można uznać go za wystarczająco zbliżony do normalnego w celu zastosowania testów parametrycznych, jeśli wartości skośności i kurtozy nie przekraczają |2|.

Skala regulacji emocji przeformułowanie poznawcze osiąga wartości od 6 do 36 (M = 23,15; SD = 8,3), a wartość testu normalności dla tej skali jest istotna, co wskazuje, że rozkład istotnie różni się od normalnego. Jednakże wartości skośności i kurtozy nie wskazują na to, żeby różnica ta była nazbyt wielka, bowiem nie przekraczają one |2|. Informują natomiast, że rozkład ma tendencję do platykurtyczności oraz skośności lewostronnej, co pozwala sądzić, że dominują wyniki wysokie.

Skala regulacji emocji tłumienie ekspresji osiąga wartości od 4 do 23 (M = 13,25; SD = 5,22). Wynik testu Kołmogorowa-Smirnowa wskazuje, że rozkład zmiennej istotnie różni się od normalnego, jednak wartości skośności i kurtozy wskazują, że różnica nie jest zbyt wielka, bowiem nie przekraczają one |2|. Na ich podstawie możemy wnioskować o platykurtyczności i lewostronności. Na tej podstawie można stwierdzić, że w grupie jest więcej wyników wysokich.

Tabela 5. Statystyki opisowe dla analizowanych zmiennych

Zmienna	Min	Max	M	Me	SD	Ske	K	Z	p
Regulacja emocji: przeformułowanie poznawcze	6	36	23,15	25,00	8,30	-0,418	-0,724	0,12	0,001
Regulacja emocji: tłumienie ekspresji	4	24	13,25	13,00	5,22	-0,029	-0,673	0,099	0,017
Postawa: możliwości pracy i uczestniczenia w życiu społecznym	0	36	23,68	23,00	7,58	-0,362	0,244	0,058	0,2
Postawa: zasługiwanie na szacunek i współczucie	6	30	21,90	24,00	6,64	-0,964	0,070	0,16	<0,001
Postawa: niezasługiwanie na wykluczenie i alienację	0	28	19,94	21,00	6,56	-0,750	-0,014	0,127	<0,001
Postawa: gotowość do bezpośredniego kontaktu z osobą chorą psychicznie	3	15	8,61	9,00	3,37	-0,046	-0,612	0,169	<0,001
Postawy: suma	34	109	74,14	73,00	15,96	0,175	-0,452	0,074	0,195
Satysfakcja z życia	5	35	20,58	21,00	7,22	-0,246	-0,760	0,072	0,2

Skróty: Min – wartość minimalna, Max – wartość maksymalna, M – średnia, SD – odchylenie standardowe, Ske – skośność, K – kurtoza, Z – statystyka Kołmogorowa-Smirnowa, p – istotność statystyczna.

Źródło: opracowanie własne.

Kolejno przyjrzano się rozkładowi postaw w grupie respondentów. Wyniki w zakresie zmiennej możliwości pracy i uczestniczenia w życiu społecznym wahają się od 0 do 36 (M = 23,68; SD = 7,58). Wartość testu Kołmogorowa-Smirnowa jest nieistotna statystycznie, w związku z czym można stwierdzić, że rozkład zmiennej jest normalny.

Zmienna zasługiwanie na szacunek i współczucie mieści się w przedziale od 6 do 30 (M = 21,9; SD = 6,64). Wynik testu normalności wskazuje na to, że rozkład jest istotnie odbiega od normalnego, a wartości skośności i kurtozy pozwalają stwierdzić, że rozbieżność jest niewielka. Rozkład ma tendencję do skośności lewostronnej i leptokurtyczności, co sugeruje, że dominują wyniki wysokie.

Postawa niezasługiwanie na wykluczenie i alienację ma wyniki w przedziale od 0 do 28 (M = 19,94; SD = 6,56). Rozkład zmiennej nie jest normalny, jednak wystarczająco zbliżony do normalnego, na co wskazują wartości skośności i kurtozy. Rozkład ma tendencję do skośności lewostronnej i platykurtyczności, co wskazuje na dominację wyników wysokich.

W zakresie postawy gotowość do bezpośredniego kontaktu z osobą chorą psychicznie wyniki mieszczą się w przedziale od 3 do 15 (M = 8,61; SD = 3,37). Zgodnie z wynikiem testu normalności rozkład zmiennej nie jest normalny, jednak wystarczająco zbliżony do normalnego, na co wskazują wartości skośności i kurtozy, które nie przekraczają |2|. Sugerują one nieznaczną tendencję do skośności lewostronnej oraz platykurtyczności.

Rozkład sumy wyników w zakresie postaw jest normalny zgodnie z wynikiem testu Kołmogorowa-Smirnowa. Wartości w tej skali mieszczą się w przedziale od 34 do 109 (M = 74,14; SD = 15,93).

Rozkład zmiennej satysfakcja z życia jest normalny zgodnie z wynikiem testu normalności. Wartości tej zmiennej mieszczą się w przedziale od 5 do 35 (M = 20,58; SD = 7,22).

Na tej podstawie zdecydowano się zastosować testy parametryczne w dalszej analizie statystycznej, gdyż rozkłady badanych zmiennych są wystarczająco zbliżone do normalnych, aby spełniać kryteria dla takich testów.

Statystyk Online

Gotowy opis wyników, zanim dopijesz kawę...

Wgraj plik i zobacz darmowy podgląd raportu.

Wypróbuj kalkulator

Nadal Potrzebujesz

POMOCY W PISANIU ?

Nazywam się Dorota Wrona. Moją misją jest pomoc studentom. Skorzystaj z ponad 25 lat doświadczenia w pisaniu i redakcji tekstów naukowych

Umów się na darmowe konsultacje

Wypróbuj kalkulator statystyczny