Normalność rozkładu

Posted on Posted in Uncategorized

Normalność rozkładu

Założenie normalności jest jednym z najbardziej niezrozumianych we wszystkich statystykach. W regresji wielorakiej założenie wymagające rozkładu normalnego odnosi się tylko do terminu reszt, a nie do zmiennych niezależnych, jak się często uważa. Być może zamieszanie związane z tym założeniem wynika z trudności zrozumienia tego, do czego odnosi się to pojęcie reszty – mówiąc prosto, jest to błąd losowy w relacji między zmiennymi niezależnymi i zmienną zależną w modelu regresji. Każdy przypadek w próbie ma faktycznie inną zmienną losową, która obejmuje cały „hałas”, który uwzględnia różnice w obserwowanych i przewidywanych wartościach wytworzonych przez równanie regresji, i jest rozkładem tego zaburzenia lub hałasu dla wszystkich przypadków w próbkce, która powinna być normalnie dystrybuowana.

Konsekwencje normalności rozkładu

Istnieje kilka konsekwencji związanych z naruszeniem założenia normalności, ponieważ nie przyczynia się on do stronniczości lub nieefektywności modeli regresji. Jest to ważne tylko przy obliczaniu wartości p dla testowania istotności, ale jest to tylko rozważenie, gdy wielkość próby jest bardzo mała. Gdy wielkość próby jest wystarczająco duża (> 200), założenie normalności nie jest wcale potrzebne, ponieważ centralne twierdzenie graniczne zapewnia, że ​​rozkład terminu zakłócenia będzie zbliżony do normalności.

W przypadku bardzo małych próbek ważne jest sprawdzenie ewentualnego naruszenia założenia normalności. Można to osiągnąć poprzez kontrolę reszt z modelu regresji (niektóre programy wykonają to automatycznie, podczas gdy inne wymagają, aby zapisać reszty jako nową zmienną i zbadać je za pomocą podsumowujących statystyk i histogramów). Dostępnych jest kilka statystyk do badania normalności zmiennych. w tym skośność i kurtoza, a także liczne wizualizacje graficzne, takie jak normalny wykres prawdopodobieństwa. Niestety statystyki do oceny są niestabilne w małych próbkach, więc ich wyniki powinny być interpretowane z ostrożnością. Kiedy stwierdzamy, że rozkład treszt odbiega od normalności, najlepszym rozwiązaniem jest zastosowanie bardziej konserwatywnej wartości p (0,01 zamiast 0,05) do przeprowadzania testów istotności i konstruowania przedziałów ufności.

Normalność rozkładu

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *