Analizy statystyczne danych – Chcesz dowiedzieć się czegoś o wynikach uzyskanych w badaniu populacji, ale nie za bardzo wiesz jak zabrać się za analizy statystyczne?
Analizy statystyczne danych i nie wiesz jak poprawnie wywnioskować z policzonych statystyk? Dzięki temu króciutkiemu wpisowi poznasz kilka postaw wnioskowania, które pozwolą Ci na zawaansowaną analizę statystyk informacji o cechach Twojej populacji.
Załóżmy mamy pewną populację np. populację mieszkańców Ameryki północnej i chcemy ją poddać analizie statystycznej danych . Naszym zadaniem jest przeprowadzić wśród nich badanie (i obliczyć odpowiednie statystyki), czyli zbadać wartość pewnej cechy. Niech ta cechą będzie długość palca wskazującego naszych mieszkańców. Trudnym zadaniem było by przebadanie każdego mieszkańca po kolie czyli całej populacji dlatego tutaj przyda nam się wnioskowanie statystyczne. Przebadany tylko wybrane osoby, czyli próbkę na podstawie wyników badań wyników tej próbki będziemy mogli coś powiedzieć o wszystkich mieszkańcach, czyli całej populacji. Mierzymy więc wartości cechy, czyli długość palca osób w naszej próbce. I dalej, używając konkretnych wzorów możemy policzyć dwa statystyczne wskaźniki, które powiedzą coś o naszych wynikach. Pierwszym jest średnia arytmetyczna, która mówi nam o tym ile wynosi przecięta długość palca w naszej próbce. Drugim jest odchylenie standardowe, które mówi jak przeciętnie odchylają się wyniki od średniej arytmetycznej, czyli wskaźnika nr 1. Teraz. Im więcej wyniki różnią się miedzy sobą tym większe jest odchylenie standardowe. Im z kolei są bardziej do siebie podobne,tym odchylenie jest mniejsze. Gdyby wszystkie wyniki były jednakowe, to odchylenie standardowe wynosiło by zero. Tak więc wyniki badania próbki i analizy statystyczne mogą nam coś powiedzieć o całej populacji.
Wnioskowanie statystyczne dzieli się na estymacje parametrów i weryfikacje hipotez.
Estymacja dzieli się na estymację punktową i estymacje przedziałową. Estymacja punktowa polega na obliczeniu wartości estymatora pewnego parametru w populacji. Brzmi do dość skomplikowane (jak większość aspektów statystycznej analizy danych), ale w praktyce jest to jednak bardzo proste. Nie znamy długość średniej arytmetycznej długość palca w populacji więc szacujemy najlepszą możliwą, dostępną wartością, czyli średnią z próbki. Średni z próbki daje mniej więcej średnią populacji. Nie wiemy niestety, czy mniej czy więcej. Gdyby okazało się, że wybraliśmy o wyjątkowo o krótkich placach moglibyśmy się sporo pomylić. Dlatego dużo bardziej przydatna jest estymacja przedziałowa. Nieznana długość palca nie będziemy szacować konkretną wartością, czyli punktem tylko pewnym przedziałem. Dodatkowo przedział ten zwany przedziały ufności podajemy z podajemy z poziomem ufności, najczęściej 95%. Co oznacza jak bardzo wyznaczonemu przedziałowi można ufać. W tym przypadku na 95%, czyli na 95% prawdziwa wartość średniej długości palca, czyli średnia palca wszystkich mieszkańców ameryki będzie w tym przedziale, który został wyznaczony o dane pobrane z próbki. Czyli średnią, odchylenie standardowe, wielkość próbki i poziom ufności. Jak się domyślacie, w zależności od tych danych z próbki , ten przedział ufności może być bardziej lub mniej dokładny. Np. jeśli byśmy przebadali tylko 4 osoby w naszej próbce, jest duża szansa, ze wylosowalibyśmy jakieś wyniki odbiegające od normy. Dlatego musimy wziąć większą poprawkę i dlatego przedział ufności jest szerszy. Im zaś osób jest więcej w naszej próbce, wynik naszej próbki zbliża się do wyniku populacji. Czyli szacowanie jest dokładniejsze, a przedział ufności węższy.
Jak widzimy powyższy przykład idealnie pokazuje drogocenność analizy statystycznej danych z perspektywy.
Niemniej by odpowiednio wnioskować z analiz statystycznych o rzeczywistości taka jaka się nam jawi niezbędne jest szyta zawszę na miarę metodologia badań. Co z tego, że przebadany i poddamy statystycznej analizie 500 osób (mając na celu wnioskowanie o populacji generalnej) skoro będą to celowo dobrane osoby. Analiza statystyczna danych wskaże nieprawdziwe wyniki. W przypadku wyciągania wniosków z analiz statystycznych danych o całej populacji podstawą są sposoby losowania obserwacji do poddawanej badaniu próbki. Można również zadbać o randomizacje (więcej o randomizacji tutaj (Randomizacja obserwacji)) w przypadku kiedy chcemy porównywać warunki eksperymentalne z grupą kontrolną. Randomizacja może być dwustopniowa. Czyli polegać na randomizowanym doborze obserwacji do badania, a następnie losowej klasyfikacji badanego do warunków eksperymentalnych. Tylko dzięki takiemu sposobie doboru obserwacji mamy podstawy do sądzenia, że zmiany w zachowaniu ludzi lub zwierząt (lub czegokolwiek czym jestesmy zainteresowani) wynikają z manipulacji eksperymentalnej, a nie innych, tendencyjnie działających czynników zakłócających (trafność wewnętrzna badania).
Tylko dzięki wykorzystaniu takiej metody możemy mieć ufność co do wyników (analizy statystycznadanych-j) i potwierdzenia swojej hipotezy badawczej. Są sytuacje w których bardzo ciężko robić randomizację. Niekiedy nie możemy manipulować zmiennymi ze względów czysto etycznych. Jest to po prostu niemożliwe aby wywołać raka, uzależnienie od heroiny, wywołać ostry stres itd. Wtedy stosuje się metody matchingowe polegające na tworzeniu wektorów podobieństwa i na podstawie zagregowanego podobieństwa dobiera się grupę kontrolną podobną do grupy eksperymentalnej pod względem szeregu kluczowych cech (zazwyczaj są one powiązane ze zmienną zależną i niezależną).
Chcesz dowiedzieć się więcej o estymacji i analizach statystycznych danych w nauce i biznesie?
Zapraszamy na www.nauka.metodolog.pl.