Analizy statystyczne

Analizy statystyczne

Posted on Posted in Analiza statystyka, Analizy statystyczne, Statystyka

Analizy statystyczne i obliczenia weryfikujące hipotezy.

Analizy statystyczne – Dziś trochę o analizach statystycznych, założeniach testów weryfikacyjnych i błędach jakie możemy popełnić przy testowaniu prawidłowości naukowych.

Statystyczna analiza danych w nauce głównie zajmuje się weryfikacją hipotez i skomplikowanych prawidłowości. Ma na celu formalne zweryfikowanie lub bardziej zakwestionowanie losowości zjawisk liczbowych występujących w zebranych danych w przeprowadzonym badaniu naukowym. Podczas postępowania analitycznego mogą pojawić się dwojakiego rodzaju błędy jakie może popełnić badacz (problem tych błędów rozwiązuje nowe podejście do statystyki polegające na włożeniu termometru do danych i odczytaniu prawdopodobieństwa hipotez badawczych (zagadnienie to statystyka bayesowska)). Może popełnić błąd polegający na odrzuceniu hipotezy o braku pewnej prawidłowości w przypadku kiedy jest ona istnieje np. odrzuca hipotezę, że kobiety i mężczyźni różnią się pod względem wzrostu. Badacz odrzuca tą hipotezę dzięki analizie statystycznej ukazującej brak istotnych różnic, a tak na prawdę różnice te występują (np. przy zbadaniu większej i bardziej reprezentatywnej próby). Uznajmy, że badacz zaliczył wtopę lub coś zamieszał w danych albo użył nie tego testu statystycznego co trzeba. Zdarza się 🙂 Drugi błąd polega na tym, że badacz odrzuca twierdzenie o istnieniu pewnej prawidłowości w przypadku kiedy ta prawidłowość istniej. Np. przy analizie statystycznej nie wyszło, że wraz ze wzrostem tal edukacji wzrastają zarobki. Tak na serio prawidłowość istnieje tylko badacz znów coś namieszam przy analizie statystyk i przetwarzaniu danych w zbiorze. Podsumowując mamy do czynienia z dwiema sytuacjami problemowymi. Zależność istnieje, ale analizy jej nie wykazują – błąd drugiego rodzaju. Zależność nie istnieje, ale analizy ją potwierdzają błąd pierwszego rodzaju. Co z takimi rzeczami robić? Starać się wszystkimi dostępnymi metodami i analizami statystycznymi doprowadzić do sytuacji w której mamy pewność, że zrobiliśmy wszystko co można było w kwestii zrobić.

Ogólnie zaleca się postępowania zgodnie z wytycznymi przeprowadzania analiz statystycznych, czyli:

  • sprawdzenie jakości danych
  • weryfikacji obserwacji odstających
  • eksploracyjne analizy statystyczne
  • sprawdzenie rozkładów
  • analiza zmienności w grupach
  • zastosowanie przekształceń statystycznych (logarytmizacja, metoda boxa coxa)
  • przeprowadzenie próbkowania bootstrap lub mote carlo
  • sprawdzenie wyników na liczydle

Co oferują analizy statystyczne metodą współczynnika Bayesa (Bayes Factor)

Statystyka Bayesowska jest nudna i wbrew pozorom bardzo prosta. Nie zagłębiając się w w szczegóły logiki liczenia, którą można znaleźć tutaj (Zrozumienie bayesa) analiza statystyczna metodami Bayesa prowadzi do jednego rodzaju wniosku przy analizie wyników dwóch konkurujących ze sobą hipotez. Dzięki współczynnikom Bayesa możemy określić statystyczne która hipoteza jest bardziej prawdopodobna. Polega to na tym, że obliczamy dwa wyniki. Pierwszy wynik wyliczamy dla statystycznego prawdopodobieństwa hipotezy zerowej np. analiza statystyczna danych dla różnic pomiędzy kobietami i mężczyznami pod względem wzrostu wykazała, że współczynnik Bayesa wyniósł BF=1,25. Znaczy to tyle, że prawdopodobieństwo hipotezy zerowej (brak różnic we wzroście) jest tylko o 1,25 raza bardziej prawdopodobne niż hipotezy alternatywnej. Analogicznie liczymy (analizami statystycznymi) współczynnik Bayesa dla hipotezy alternatywnej (istotne różnice we wzroście). Współczynnik statystyczny Bayesa wynosi BF=32,5. Znaczy to tyle, że hipoteza alternatywna jest 32,5 raza bardziej prawdopodobna niż hipoteza zerowa. Prawda, że prostsze? Jakie są różnice każdy widzi. Dlatego współczynnik Bayesa jest określany przez wszystkich jako statystyka nudna. Trochę bardziej optymistycznie oraz metaforycznie brzmi to, że czynnik Bayesa jest po prostu termometrem który wkłada się – przy statystycznej analizie – w dane i odczytuje się temperaturę dla konkretnych hipotez. Póki co statystyka bayesowska jest raczkującym wynalazkiem. Niemniej dzięki postępującej wiedzy i rozwijającej się modzie na tego typu dowodzenie możemy oczekiwać, że analiza statystyczna ze współczynnikiem Bayesa będzie coraz częściej pojawiać się w artykułach naukowych i analizach statystycznych danych w firmach.

Warto wspomnieć, że analizy statystyczne i wynalazek jakim jest statystyka Bayesowska jest remedium w dobie kryzysu replikacji.

Duża część badań które się nie powtarzają efektów i nie powielają w innych badaniach wynika głównie z braku umiejętności analizy statystycznej danych i paskudnego współcznnika jakim jest istotność statystyczna. Jeśli badacz ledwo co wykrył dany efekt bo wyszło mu p=0,046 to nie znaczy, że efekt istnieje. Istotność zawsze będzie wykazywało tylko i wyłącznie to, że w danych jest coś znaczącego. Bezgraniczne ufanie istotności statystycznej może prowadzić do wielu błędów np. komuś może urosnąć penis na czole (bo statystyk uznał, że dane są spoko, a istotność wykazuje, że nowy lek lub mutacja genów statystycznie wpływa na zanik komórek rakowych hehhe). W przypadku analizy statystycznej metodą Bayesa problem znika z tego względu, że badacz lub statystyk ma do czynienia z danymi na temat obu hipotez i dzięki temu może ważyć na szali statystycznej Temidy swoje dane. Jeśli w przy hipotezie zerowej współczynnik Bayesa wynosi 12,34, a w przypadku hipotezy alternatywnej 15,21 to wie, że ma przed sobą pewną niejednoznaczność danych. Czyli! Musi bardziej pogrzebać lub powtórzyć badanie np. kontrolować bardziej trafność wewnętrzną badanego zjawiska.

Co by nie było. Klasyczna analiza statystyczna z wartością istotności na czele będzie bardzo długo się ciągnąć ze względu na to, że jest to dobrze ugruntowana i spopularyzowana wiedza. Recenzenci projektów naukowych, naukowcy, studenci i firmy są przyzwyczajeni do istotności statystycznej. Wyskoczenie w pracy magisterskiej lub doktorskiej ze statystyka Bayesowską może być uznane, za sylwestra zrobionego w połowie czerwca hehe, czyli dosyć ekscentrycznie. Niemniej warto tego typu analizy statystyczne właśnie w ten sposób popularyzować.

Co by nie było klasyczna analiza statystyczna i współczynnik Bayesa mają swoje zalety, ale mają też swoje wady.

W przypadku pierwszym jednoznacznie odrzucamy hipotezę zerową lub przy niej zostajemy, a u Bayesa dumamy i spieramy się z dylematem, czy Bayes Factor równe 55 jest mniejsze od 75.

Chcesz zobaczyć korelację wykonaną metodą Bayesa? kliknij (Analiza statystyczna korelacji metodą Bayesa)

 

 

Potrzebujesz analiz statystycznych ?Analizy statystyczne w Metodolog.pl klik

 

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *