Testování hypotéz

Podstata statistického testování hypotéz tkví ve filozofiích karteziánského racionalismu, pozitivismu a kritického racionalismu. Z toho poslední plyne tvrzení, že pravdivé hypotézy jsou pouze ty, které nelze falzifikovat – hypotézu nelze potvrdit, ale snažíme se o její vyvrácení, pokud ji vyvrátíme, není pravdivá, pokud ji nelze vyvrátit chováme se k ní jako k pravdivé.

Statistické hypotézy tedy vycházejí z předpokladu, že hypotézu nelze na základě dat dokázat, nicméně ji lze vyvrátit. Proto se formulují hypotézy, které se označují H0, tedy nulové hypotézy, které jsou obvykle opakem toho, co se snažíme prokázat!!!!!!!! Proto H0 obvykle zní “není rozdíl mezi skupinou X a skupinou Y”. Pokud jsme schopni na základě dat nulovou hypotézu vyvrátit, mohu ji zamítnout a mohu přijmout ji negující hypotézu (alternativní, která se obvykle značí HA nebo H1).

Způsob uvažovaní při testování hypotéz a faktorů ovlivňujících jejich výstup si ukážeme na příkladu dvouvýběrového t-testu, ke kterému se dostaneme v konkrétní podobě za chvíli.

Přijmutí nebo zamítnutí nulové hypotézy vychází z porovnání vypočtené hodnoty statistické metody (což je nějaká funkce, vzorec, do kterého vstupují měřená data) a kritické hodnoty dané metody (hodnota je tabelována = najdu ji v tabulkách, statistické software ji znají a rovnou reportují). Princip je shrnut na tabuli. Je-li hodnota vypočtená z našich dat menší než kritická, pak nulovou hypotézu nemohu zamítnout a opačně (toto neplatí vždy – výjimkou jsou např. Mann-Whitney a Wilcoxon, jejichž funkce mají obrácený charakter – tabule). Kritická hodnota je závislá na pravděpodobnosti, kterou jsem ochoten přijmout pro platnost nulové hypotézy a odpovídá hodnotě dané pravděpodobnosti pod křivkou funkce hustoty rozdělení pravděpodobnosti (celkový obsah pod křivkou je 100% a já říkám, co je nepravděpodobné – nejčastěji 5 %, 1 %, nebo 0,1 %, pravděpodobnost platnosti H0 je tedy 95%, 99%, resp. 99,9%, nejčastěji se tato hodnota uvádí jako hladina významnosti, která se značí “p” a uvádí se v desetinách, tedy 0,05, 0,01 a 0,001). Čím je tato hodnota nižší, tím podstupuji větší riziko, že zamítnu skutečnost, která je pravdou (= chyba 1. druhu), na druhou stranu tím snižuji pravděpodobnost, že bych zamítl hypotézu, která by nebyla pravdou (= chyba 2. druhu). Samozřejmě to platí i opačně.

POZOR – nestanovuji její konkrétní kritickou hodnotu, ale pravděpodobnost – od ní se odvíjí konkrétní kritická hodnota. Je to proto, že tvar křivky se mění s počty stupňů volnosti a mohu testovat oboustrannou i jednostrannou rovnost – viz dále.

Kritická hodnota statistické metody je tedy závislá na počtu stupňů volnosti. Ty se odvíjejí od počtu měření a v mnoha testech i od počtu kategorií, pro něž se test provádí. U našeho modelového testu platí, že kolem nuly je křivka vyšší a celkově je vysoká část užší při vyšších hodnotách počtu stupňů volnosti, proto pak je kritická hodnota pro stejnou hladinu významnosti v absolutní hodnotě menší číslo než u nižšího počtu stupňů volnosti – v rámcích statistiky je to logické – mám více měření, jsem blíže základnímu souboru a tedy data jsou blíže “pravdě”. Vliv počtu stupňů volnosti je znázorněn na tabuli.

Existují i případy, kdy nás nezajímá test shody dvou výběrů, ale H0 je postavena na nerovnosti (typicky mám dva výběry a vím, že jeden by měl dosahovat vyšších hodnot, pak nemá smysl testovat rovnost, ale bude nás zajímat jen jedna strana. Kritická hodnota je pak jiná při stejném počtu stupňů volnosti a hladině významnosti – vysvětlení proč je modrou barvou na tabuli.

Více informací naleznete například ve zkušební literatuře – Lepš, 1996, s. 23 – první 4 odstavce, s. 25 – Tab. 2-1.