Testování hypotéz

Podstata statistického testování hypotéz tkví ve filozofiích karteziánského racionalismu (důraz na myšlení poznávacího subjektu = schopnosti rozumového posouzení empiricky zjištěného), pozitivismu (přesvědčení o objektivním poznání pozitivně existujícího daného kumulací poznání) a kritického racionalismu (kritického posouzení zjištěného – nutnost tvorby hypotéz, jejich testování na falzifikatelnost) , tedy toho, co je označováno za “vědecký” přístup. Z toho posledního plyne tvrzení, že pravdivé hypotézy jsou pouze ty, které nelze falzifikovat – hypotézu nelze potvrdit, ale snažíme se o její vyvrácení, pokud ji vyvrátíme, není pravdivá, pokud ji nelze vyvrátit chováme se k ní jako k pravdivé (. . . dokud nebude vyvrácena).

Statistické hypotézy tedy vycházejí z předpokladu, že hypotézu nelze na základě dat dokázat, nicméně ji lze vyvrátit. Proto se formulují hypotézy, které se označují H0, tedy nulové hypotézy, které jsou obvykle opakem toho, co se snažíme prokázat!!!!!!!! Proto H0 obvykle zní “není rozdíl mezi skupinou X a skupinou Y”. Pokud jsme schopni na základě dat nulovou hypotézu vyvrátit, mohu ji zamítnout a mohu přijmout ji negující hypotézu (alternativní, která se obvykle značí HA nebo H1).

Způsob uvažovaní při testování hypotéz a faktorů ovlivňujících jejich výstup si ukážeme na příkladu dvouvýběrového t-testu, ke kterému se dostaneme v konkrétní podobě za chvíli.

Přijmutí nebo zamítnutí nulové hypotézy vychází z porovnání vypočtené hodnoty statistické metody (což je nějaká funkce, vzorec, do kterého vstupují měřená data) a kritické hodnoty dané metody (hodnota je tabelována = najdu ji v tabulkách, statistické software ji znají a rovnou reportují). Princip je shrnut na tabuli.

Pravděpodobnostní podstata testu hypotézy.

Je-li hodnota vypočtená z našich dat menší než kritická, pak nulovou hypotézu nemohu zamítnout a opačně (toto neplatí vždy – výjimkou jsou např. Mann-Whitney a Wilcoxon, jejichž funkce mají obrácený charakter – tabule).

U Mann-Whitney a Wilcoxon testů je rozhodování “opačné” než u t-testu.

Kritická hodnota je závislá na pravděpodobnosti, kterou jsem ochoten přijmout pro platnost nulové hypotézy a odpovídá hodnotě dané pravděpodobnosti pod křivkou funkce hustoty rozdělení pravděpodobnosti (celkový obsah pod křivkou je 100% a já říkám, co je nepravděpodobné – nejčastěji 5 %, 1 %, nebo 0,1 %, pravděpodobnost platnosti H0 je tedy 95%, 99%, resp. 99,9%, nejčastěji se tato hodnota uvádí jako hladina významnosti, která se značí p a uvádí se v desetinách, tedy 0,05, 0,01 a 0,001). Čím je tato hodnota nižší, tím podstupuji větší riziko, že zamítnu skutečnost, která je pravdou (= chyba 1. druhu), na druhou stranu tím snižuji pravděpodobnost, že bych zamítl hypotézu, která by nebyla pravdou (= chyba 2. druhu). Samozřejmě to platí i opačně.

POZOR – nestanovuji konkrétní kritickou hodnotu, ale pravděpodobnost – od této pravděpodobnosti se odvíjí konkrétní kritická hodnota. Je to proto, že tvar křivky se mění s počty stupňů volnosti a mohu testovat oboustrannou i jednostrannou rovnost – viz dále.

POZOR2 – statistické software obvykle počítají konkrétní hodnotu p pro (z Vašich dat vypočítanou) hodnotu testu, tedy kritickou hodnotu nehledáte a jen porovnáváte, jeli konkrétní hodnota p větší nebo menší než Vámi stanovená hodnota p. Je-li mnou stanovená hodnota p větší než spočítaná hodnota p, pak H0 zamítám.

Kritická hodnota statistické metody je tedy závislá na počtu stupňů volnosti. Ty se odvíjejí od počtu měření a v mnoha testech i od počtu kategorií, pro něž se test provádí. U našeho modelového testu platí, že kolem nuly je křivka vyšší a celkově je vysoká část užší při vyšších hodnotách počtu stupňů volnosti, proto pak je kritická hodnota pro stejnou hladinu významnosti v absolutní hodnotě menší číslo než u nižšího počtu stupňů volnosti – v rámcích statistiky je to logické – mám více měření, jsem blíže základnímu souboru a tedy data jsou blíže “pravdě”. Vliv počtu stupňů volnosti je znázorněn na tabuli.

Vliv počtu stupňů volnosti.

Existují i případy, kdy nás nezajímá test shody dvou výběrů, ale H0 je postavena na nerovnosti (typicky mám dva výběry a vím, že jeden by měl dosahovat vyšších hodnot, pak nemá smysl testovat rovnost, ale bude nás zajímat jen jedna strana). Kritická hodnota je pak jiná při stejném počtu stupňů volnosti a hladině významnosti – vysvětlení, proč tomu tak je, je modrou barvou na tabuli.

Jednostranný test vs. oboustranný test.