Wartość p

graniczny poziom istotności

Wartość p, p-wartość, prawdopodobieństwo testowe (ang. p-value, probability value) – prawdopodobieństwo uzyskania wyników testu co najmniej tak samo skrajnych, jak te zaobserwowane w rzeczywistości (w próbie losowej z populacji), obliczone przy założeniu, że hipoteza zerowa jest prawdziwa. Może być interpretowana jako miara niezgodności danych z założonym modelem, wyrażonym w hipotezie zerowej. Wyniki testów statystycznych sugerujące istnienie poszukiwanych zależności mogą być obserwowane wskutek losowej zmienności prób, choć w populacji wcale nie występują, dlatego błąd losowy powinien być kontrolowany, na przykład przy pomocy wartości . Jest to jednak narzędzie, które świadczy o wartości dowodowej danych jedynie pośrednio. Według wielu przeglądów i komentarzy błędne interpretacje wartości są w naukach powszechne[2].

Przy założeniu hipotezy zerowej rozkład prawdopodobieństwa niektórych statystyk z próby ma postać rozkładu normalnego. Pozwala to na łatwe określenie, jakie wyniki są mało prawdopodobne w świetle hipotezy zerowej.
Przy założeniu hipotezy zerowej rozkład prawdopodobieństwa niektórych statystyk z próby ma postać rozkładu normalnego. Pozwala to na łatwe określenie, jakie wyniki są mało prawdopodobne – w świetle hipotezy zerowej.
Nomogram pozwalający na bayesowskie oszacowanie wynikowego prawdopodobieństwa subiektywnego hipotezy zerowej na podstawie wartości i prawdopodobieństwa zaczątkowego[1].

Wartość jest używana we wnioskowaniu częstościowym przy weryfikacji hipotez statystycznych jako narzędzie kontroli błędów pierwszego rodzaju, polegających na uznawaniu fałszywych hipotez za prawdziwe. Jeśli wartość jest niższa, niż przyjęty z góry poziom istotności statystycznej (oraz jeśli model jest trafny, a jego założenia spełnione) można postępować tak, jakby hipoteza zerowa została odrzucona[3][4].

Wartość to prawdopodobieństwo skrajnych danych przy założeniu hipotezy zerowej: Można je rozumieć jako stopień, w jakim dane są zaskakujące, jeśli nie spodziewaliśmy się wykryć w danych niczego odbiegającego od założonej hipotezy zerowej (często jest nią brak efektu). Wartości nie należy mylić z prawdopodobieństwem danych przy założeniu alternatywnej hipotezy badawczej ani z prawdopodobieństwem hipotez w świetle danych; mogą mieć one zupełnie inne wartości:

Według oryginalnej propozycji Ronalda Fishera wartość może być używana do oceny wartości dowodowej danych, jednak jest to interpretacja obarczona licznymi zastrzeżeniami. Współtwórcy podejścia częstościowego, Spława-Neyman i Pearson, uważali, że takie oceny są nieuprawnione[3][4]. W realistycznych sytuacjach wartość nie musi silnie korelować z prawdziwością hipotezy zerowej[5]. Prawidłowo stosowana metodologia częstościowa nie służy do decydowania wprost o prawdziwości hipotez, zwłaszcza na podstawie pojedynczych badań, ale do unikania błędów decyzyjnych przy wielokrotnym powtarzaniu testów.

Istnieją sytuacje, w których wniosek, do którego prowadzi obliczanie wartości , jest błędny lub wręcz absurdalny, przede wszystkim jeśli badacz popełni błędy metodologiczne lub oszustwa (tzw. P-hacking): np. nie zastosuje poprawki na porównania wielokrotne. Autorzy postera konferencyjnego z 2009 r. zilustrowali to, wykonując badanie fMRI na martwym łososiu. Próby, w których nieżywej rybie pokazywano fotografie ludzi, wiązały się z istotną statystycznie zmianą aktywacji obszarów w jej mózgu (przed poprawkami)[6][7].

Definicja

edytuj

W modelu wnioskowania częstościowego przed wykonaniem eksperymentu wybiera się krytyczny poziom istotności odpowiadający dopuszczalnemu w ocenie badacza ryzyku popełniania błędu pierwszego rodzaju oraz model statystyczny odpowiadający hipotezie zerowej   tj. zakładający brak istnienia jakiegokolwiek efektu w populacji. W praktyce z reguły stosowany jest poziom istotności   Wartość   to obliczone na podstawie danych prawdopodobieństwo uzyskania takich lub bardziej skrajnych obserwacji w modelu hipotezy zerowej   Odczytuje się ją zależnie od testu i tego, czy zakładamy jedno-, czy dwustronną hipotezę alternatywną – z jednej lub obu stron dystrybuanty właściwego dla niego rozkładu. Przed rozpowszechnieniem komputerów korzystano z tablic statystycznych, co było zaletą podejścia częstościowego, zapewniającego w ten sposób gotowe rozwiązania dla najczęściej spotykanych postaci problemów. Jeśli wartość   jest mniejsza od przyjętego poziomu istotności, wynik uważa się za zaskakujący w świetle   i określa się go jako istotny statystycznie. Jest to rozstrzygnięcie zero-jedynkowe – wynik jest albo istotny na przyjętym poziomie, albo nie[8][9]. Jeśli eksperyment uwzględnia wielokrotne wykonywanie testów statystycznych, poziom istotności powinien uwzględniać poprawkę przeciwdziałającą problemowi porównań wielokrotnych, np. Bonferroniego.

Użycie unormowanej wielkości, w przeciwieństwie do różnorodnych statystyk testowych (z, F, t, chi-kwadrat, D Kołmogorowa-Smirnowa itp.), pozwala bezpośrednio porównywać to, na ile dane z różnych eksperymentów są zaskakujące – przy założeniu hipotezy zerowej.

Interpretacja

edytuj

Wartość   niższa od krytycznego poziomu istotności   w podejściu częstościowym uprawnia jedynie do postępowania doraźnie tak, jakby hipoteza zerowa została odrzucona. Jest parametrem konkretnych obserwacji (próby statystycznej), a nie hipotezy badawczej. Nie wyraża wprost prawdopodobieństwa hipotezy alternatywnej:   Nie wyraża też ryzyka popełnienia błędu pierwszego rodzaju (wynosi ono zawsze tyle, jaki przyjęto poziom istotności, najczęściej  ). Nie wyraża również istotności praktycznej badanego zjawiska – niską wartość   można uzyskać przy mikroskopijnych różnicach międzygrupowych (wielkości efektu), jeśli wielkość próby (moc statystyczna) jest bardzo duża. Jacob Cohen zwraca uwagę, że w naturze nie istnieją efekty idealnie zerowe, i w każdej parze zmiennych można oczekiwać jakiejś współzmienności, choćby mikroskopijnej. Miarą istotności praktycznej wyniku jest wielkość efektu z jej przedziałem ufności[2][10].

Wartość   wyższa od poziomu istotności   jest nieinformacyjna – nie świadczy ani za, ani przeciwko hipotezie zerowej. Wartość taka może oznaczać, że badanie miało zbyt niską moc statystyczną – w takim przypadku przedział ufności rezultatu będzie obejmować zarówno zero, jak i wyniki odległe od zera. Aby rzetelnie stwierdzić, czy zaobserwowane dane rzeczywiście świadczą na rzecz braku efektu praktycznie różnego od zera, a nie wynikają np. z niskiej mocy, można na przykład wykonać test równoważności (taki jak TOST – od ang. two one sided tests)[11]. Możliwe jest też na przykład, że badane zjawisko jest powierzchownie podobne do hipotezy zerowej – jak np. niektóre mechanizmy doboru naturalnego w biologii ewolucyjnej – i hipoteza badawcza musi być wyrażona w postaci bardziej szczegółowego modelu[12].

To, czy badanie może być uważane za przekonujące, zależy od jego konstrukcji i powtarzalności, a nie surowej wartości   pojedynczego badania czy alternatywnych odpowiedników takich jak czynnik Bayesa[2][9].

Rozkład wartości

edytuj
 
Rozkład wartości   dla H0 i H1 przy mocy testu ~90%. W takiej sytuacji znaczna część wartości   poniżej progu istotności 0,05, pomimo przekroczenia wartości krytycznej, pozostaje bardziej prawdopodobna dla hipotezy zerowej niż alternatywnej.

Przy bardzo wysokiej mocy statystycznej testów, wyniki, które leżą poniżej, ale blisko progu istotności statystycznej   (np. o wartości   z przedziału 0,02–0,05), mogą świadczyć wbrew konwencjonalnym interpretacjom procedury bardziej na rzecz hipotezy zerowej. Jest to wariant paradoksu Lindleya.

Gdy różnica, której istnienie testujemy, jest w rzeczywistości nieobecna (hipoteza zerowa jest prawdziwa), rozkład oczekiwanych wartości   jest jednostajny – każda wartość jest identycznie prawdopodobna. Spodziewamy się, że 5% wyników przypadkowo znajdzie się w każdym 5% rozkładu istotności, także w 0–0,05.

Gdy testujemy faktycznie istniejącą różnicę (hipoteza zerowa jest fałszywa), rozkład wartości   jest silnie prawoskośny – w stopniu zależącym od mocy statystycznej badania. Przy bardzo wysokiej mocy statystycznej większość testów fałszywej hipotezy zerowej powinna osiągać wartości   bliskie zeru. Wartości tylko trochę bardziej odległe – już np. w przedziale 0,02–0,05 – mogą wbrew spełniania kryterium „istotności statystycznej” świadczyć bardziej na rzecz prawdziwości hipotezy zerowej[13][14].

Jeśli zbiór badań tego samego zjawiska, szczególnie pochodzących z jednej publikacji lub od jednego autora, nie jest w pełni zgodny z oczekiwanym rozkładem – nie jest jednostajnie prawoskośny – można podejrzewać, że ma miejsce tendencyjność publikacji, błąd lub oszustwo naukowe (P-hacking). Narzędziem służącym do sprawdzania tego podejrzenia jest na przykład  -curve[15].

Przykład

edytuj

Wyobraźmy sobie eksperyment sprawdzający, czy moneta jest symetryczna (jednakowa jest szansa otrzymania orła, jak i reszki). Hipoteza zerowa jest więc taka, że moneta jest symetryczna i każde odchylenie liczby otrzymanych orłów od liczby reszek jest tylko przypadkiem. Przypuśćmy, że wyniki eksperymentu to wyrzucenie 14 orłów z 20 rzutów. Wartość   takiego wyniku jest szansą na to, żeby uczciwa moneta dała przynajmniej 14 orłów na 20 rzutów lub najwyżej 6 reszek na 20 rzutów. Prawdopodobieństwo tego, że na 20 rzutów symetrycznej monety otrzymamy co najmniej 14 orłów wynosi:

 

Otrzymujemy zatem wartość   większą od konwencjonalnego poziomu istotności 0,05, tak więc nie ma podstaw do podważania hipotezy o tym, że moneta jest symetryczna.

Zobacz też

edytuj

Przypisy

edytuj
  1. Leonhard Held, A nomogram for Pvalues, „BMC Medical Research Methodology”, 10, 2010, s. 21, DOI10.1186/1471-2288-10-21, ISSN 1471-2288, PMID20233437, PMCIDPMC2851703 [dostęp 2017-01-30].
  2. a b c Sander Greenland i inni, Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations, „European Journal of Epidemiology”, 31 (4), 2016, s. 337–350, DOI10.1007/s10654-016-0149-3, ISSN 0393-2990, PMID27209009, PMCIDPMC4877414 [dostęp 2017-02-09] (ang.).
  3. a b Jesper W. Schneider, Null hypothesis significance tests. A mix-up of two different theories: the basis for widespread confusion and numerous misinterpretations, „Scientometrics”, 102 (1), 2014, s. 411–432, DOI10.1007/s11192-014-1251-5, ISSN 0138-9130 [dostęp 2017-01-15] (ang.).
  4. a b Raymond Hubbard i inni, Confusion over Measures of Evidence (p’s) versus Errors (α's) in Classical Statistical Testing, „The American Statistician”, 57 (3), 2003, s. 171–182, JSTOR30037265 [dostęp 2017-01-15].
  5. David Trafimow, Stephen Rice, A Test of the Null Hypothesis Significance Testing Procedure Correlation Argument, „The Journal of General Psychology”, 136 (3), 2009, s. 261–270, DOI10.3200/GENP.136.3.261-270, ISSN 0022-1309, PMID19650521 [dostęp 2017-01-15].
  6. Charles Seife, The Mind-Reading Salmon, „Scientific American”, 305 (2), Polskie tłumaczenie: Łosoś telepata. „Świat Nauki”. nr. 10 (242), s. 14, październik 2011. Prószyński Media. ISSN 0867-6380., s. 30–30, DOI10.1038/scientificamerican0811-30a [dostęp 2017-01-15].
  7. Craig M. Bennett, MB Miller, GL Wolford, Neural correlates of interspecies perspective taking in the post-mortem Atlantic Salmon: an argument for multiple comparisons correction, „ResearchGate”, 47 (1), 2009, DOI10.1016/S1053-8119(09)71202-9, ISSN 1053-8119 [dostęp 2017-01-15].
  8. Gerd Gigerenzer, Mindless statistics, „The Journal of Socio-Economics”, 33 (5), Statistical Significance, 2004, s. 587–606, DOI10.1016/j.socec.2004.09.033 [dostęp 2017-01-15].
  9. a b Ronald L. Wasserstein, Nicole A. Lazar, The ASA’s Statement on p-Values: Context, Process, and Purpose, „The American Statistician”, 70 (2), 2016, s. 129–133, DOI10.1080/00031305.2016.1154108, ISSN 0003-1305 [dostęp 2017-01-15].
  10. Jacob Cohen, The earth is round (p < .05): Rejoinder., „APA PsycNET”, 50 (12), 1995, DOI10.1037/0003-066X.50.12.1103, ISSN 1935-990X [dostęp 2017-01-15].
  11. Daniel Lakens, Equivalence Tests: A Practical Primer for t-Tests, Correlations, and Meta-Analyses, „Social Psychological and Personality Science, in press”, 2017.
  12. Jerald B. Johnson, Kristian S. Omland, Model selection in ecology and evolution, „Trends in Ecology & Evolution”, 19 (2), 2004, s. 101–108, DOI10.1016/j.tree.2003.10.013 [dostęp 2019-03-30] (ang.).
  13. Thomas Sellke, M.J. Bayarri, James O. Berger, Calibration of ρ Values for Testing Precise Null Hypotheses, „The American Statistician”, 55 (1), 2001, s. 62–71, DOI10.1198/000313001300339950, ISSN 0003-1305 [dostęp 2019-03-14].
  14. Daniël Lakens, On the challenges of drawing conclusions from p-values just below 0.05, „PeerJ”, 3, 2015, e1142, DOI10.7717/peerj.1142, ISSN 2167-8359, PMID26246976, PMCIDPMC4525697 [dostęp 2017-01-08].
  15. Uri Simonsohn, Joseph P. Simmons, Leif D. Nelson, Better P-curves: Making P-curve analysis more robust to errors, fraud, and ambitious P-hacking, a Reply to Ulrich and Miller (2015), „Journal of Experimental Psychology. General”, 144 (6), 2015, s. 1146–1152, DOI10.1037/xge0000104, ISSN 1939-2222, PMID26595842 [dostęp 2017-01-08].