Neparametrické metody pro jeden a/nebo dva výběry

Neparametrické metody jsou určeny primárně pro testování statistických hypotéz týkajících se nominálních a ordinálních dat – jsou na nich definovány. V případě dat nominálních vyhodnocujeme četnosti – jen ty mají kvantitativní charakter, jinak vlastní nominální data mají informaci kvalitativní (pohlaví, barva, typ čehokoliv). Testování hypotéz u ordinálních dat se děje na základě pořadí zjištěných hodnot – v testech se nepracuje se přímo s měřenými hodnotami, ale s jejich pořadími.

Využít tyto metody lze i pro data vyšší úrovně. V případě, že tato data nesplňují některou z podmínek testů určených pro tyto data, a my je musíme testovat, pak nemáme na výběr, a použijeme neparametrických metod. Nicméně, pokud je to možné, měli bychom na poměrová data použít metod parametrických.

Videoprezentace


NOMINÁLNÍ DATA (7. lekce R)

První skupinou metod jsou metody definované na nominálních datech a určeny tak jsou především pro testování hypotéz spojených s četnostmi výskytu.

Videoprezentace


Chí-kvadrát testy

Hodnoty důležité pro výpočet chí-kvadrát testu jsou obvykle zjistitelné z kontingenční tabulky našich dat. Vzorce pro výpočet jsou uvedeny u jednotlivých typech testů.

MS Excel je schopen jej vypočítat pomocí funkce CHITEST (nové verze používají funkci CHISQ.TEST), jen si budete muset sami napsat nebo vypočítat očekávané hodnoty (navíc MS Excel vrací jen hodnotu p a nikoliv chí-kvadrátu a d.f., přestože návod tvrdí opak).

Nejčastěji používáme chí-kvadrát test ve dvou typech případů:

Testuji rozložení mé jedné proměnné oproti předpokládanému (teoretickému) rozložení této proměnné = jednovýběrový chí-kvadrát test dobré shody

Základní informační shrnutí je na tabuli.

Výpočet chí-kvadrát testu dobré shody.
  • Příklad z přírodních věd 1: sleduji schopnost myšice křovinné překonat vodní tok při hledání potravy, odchytem do pastí jsem zjistil, že z celkového počtu opakovaného odchytu jich vodní tok překonalo 20, z toho bylo 13 samic a 7 samců. Mohu se ptát, existuje rozdíl v míře bariérového efektu vodního toku mezi samci a samicemi? Očekávané hodnoty, proti nimž testuji mé měření jsou 10:10, protože předpokládám, že poměr mezi pohlavími je na lokalitě 50 % na 50 %.
  • Příklad z přírodních věd 2: Ve vymezené oblasti byly sledovány tři asociace jednoho vegetačního svazu, jejich zastoupení na celkovém výskytu svazu v oblasti bylo 3:11:7. Liší se toto rozdělení četností od očekávaného poměru zastoupení 1:1:1?
  • Příklad ze sociálních věd: v návštěvnosti zámku Kratochvíle jsem zjistil variabilitu v návštěvnosti podle věku návštěvníků. Mohu se ptát, odpovídá věková struktura návštěvnosti zámku Kratochvíle věkové struktuře obecné populace ČR? Poměr věkových kategorií zjistím z údajů ČSÚ.

Chí-kvadrát test používáme při testování souvislostí výskytu kombinací hodnot dvou proměnných = dvouvýběrový chí-kvadrát test

Základní informační shrnutí je na tabuli.

Dvouvýběrový chí-kvadrát test.
  • Příklad z přírodních věd 1: U jistého druhu hlodavce v Arizoně byly identifikovány čtyři odstíny kožichu – tmavě hnědá, tmavě okrová, světle hnědá a světle okrová. Liší se zastoupení identifikovaných barev mezi pohlavími daného druhu hlodavce? Zastoupení měřených hodnot je následující: samice – 64:32:86:18; samci – 55:64:65:16.
  • Příklad z přírodních věd 2: Liší se zastoupení druhově bohatých a druhově chudých lokalit ve třech vegetačních typech ve vymezeném území. Použijte soubor data1.xlsx, pro něj víme, že vegetační typ 2 patří do jednoho svazu a vegetační typ 2 do jiného svazu. (Budete muset slučovat kategorie a použít Yatesovu korekci.)
  • Příklad z přírodních věd 3: Má barva samice vliv na to, jestli na ní jsou nebo nejsou zavěšeni při rozmnožování samci? Použijte soubor nominalni.xlsx a proměnné samice-barva a samci-ano.
  • Příklad ze sociálních věd: Zámek Hluboká inovoval expozici trofejí třemi novými prvky a chce zjistit, jestli některá z těchto inovací ovlivnila spokojenost s návštěvou zámku a předpokládá, že spokojenost bude ovlivněna pohlavím (lovecké trofeje budou spíše doménou mužů než žen). Byl sestaven dotazník, kde měl každý z respondentů označit inovaci, se kterou je nejvíce spokojen a své pohlaví. Pak mohu testovat nulovou hypotézu: míra percepce atraktivnosti dílčích inovací je nezávislá na pohlaví návštěvníka.

V tomto případě použití nám “chybí” očekávané hodnoty – ty se pro každou buňku matice 1. proměnná versus 2. proměnná určí jako podíl součinu součtu četností daného řádku a součtu četností daného sloupce a celkového počtu pozorování (= vzorec je zeleně na předchozím obrázku).

V případě software STATISTICA je není nutné počítat, program to udělá sám – video.

Při výpočtech pamatujte na omezení chí-kvadrát testu, že žádná očekávaná četnost nesmí být nulová (nulou dělit nelze) a neměla by být menší než 1, což se běžně stává při měřených četnostech 0, a maximálně 20 % všech četností může být menších než 5 (žádná hodnota pod 5 u 2×2 tabulek). Pokud je menších četností více, je nutno použít Yatesovu korekci (červeně na předcházejícím obrázku), kterou se doporučuje provádět jen v 2 x 2 tabulkách.

K tomu, abyste mohli vypočítat chí-kvadrát s Yatesovou korekcí v MS Excel, budete muset znát funkci MS Excel ABS, která vrací absolutní hodnotu čísla nebo čísla vyjádřeného výrazem.

Videoprezentace


Fisherův exaktní test

Velkým problémem chí-kvadrát testu je to, že hodnota p je pouze odhadem, neboť rozdělení náhodného výběru nominálních dat je jen aproximací chí-kvadrát rozdělení. Tato aproximace je nespolehlivá u malých počtů měření a především v 2×2 kontingenčních tabulkách. Mám-li 2×2 kontingenční tabulku o malých četnostech, včetně nuly, pak se jako nejvhodnější varianta doporučuje použít Fisherův exaktní test. Testuje se nulová hypotéza, že rozdělení objektů podle dvou kritérií je odlišné od hypergeometrického rozdělení. Počítá se pouze hodnota p, kterou se testuje odlišnost sloupců od řádků. Vzorec pro výpočet je:

p = ((a+b)! (c+d)! (a+c)! (b+d)!)/(a! b! c! d! n!)

kde p je hladina významnosti, a, b, c, d jsou hodnoty v kontingenční tabulce v uspořádání SZ, SV, JZ, JV a n = a+b+c+d. Obrovskou výhodou je možnost použití tohoto testu, i když se některá z hodnot a,b,c,d rovná nule, neboť 0!=1.

V MS Excel je k výpočtu znát další funkci – FAKTORIÁL.

  • Příklad z přírodních věd 1: Typické využití Fisherova exaktního testu je při testování společného výskytu dvou druhů při nízkém počtu měření. H0 zní, že neexistuje závislost ve výskytu dvou druhů. Navštívili jsme 15 náhodně vybraných lokalit a sledovali jsme výskyt dvou druhů ostřic, v 2×2 tabulce máme výskyt 6, 2, 1, 6, otázka zní, je výskyt těchto dvou druhů ostřic nezávislý? Řešení v MS Excel je na videu.
  • Příklad z přírodních věd 2: Tímto testem testuji v JUICE koncentraci druhu v typu společenstva – musím mít definovány skupiny v základní tabulce (např. výsledek TWINSPANu, shlukové analýzy nebo ručně). Pak volím Synoptic Table a v něm Fidelity. Test si nastavím v Threshold Value na kartě Fidelity Measures, pak v Type . . . dávám phi coefficient a ve Standardisation . . . zaškrtrávám Calculate Fisher´s exact test.

Videoprezentace

RealStatistics podporuje Fisherovy exaktní testy v kontingenčních tabulkách 2×2 až 5×2 a 3×3.


Kolmogorov-Smirnov test

Jde o alternativu chí-kvadrát testu. Testují se v něm rozdíly mezi výběry (dvouvýběrový) nebo výběrem a teoretickým rozdělením (jednovýběrový test dobré shody) v relativních kumulativních četnostech (absolutní hodnota rozdílu). Největší rozdíl je pak testovacím kritériem, které je posuzováno oproti tabelované kritické hodnotě pro odpovídající hladinu významnosti a počet stupňů volnosti (d.f. = počet měření (n)).

K výpočtu KS testu. CC0

Videoprezentace

Jednovýběrový Kolmogorov-Smirnov test se nejčastěji používá k testování shody rozložení dat s teoretickým rozdělením, nejčastěji normálním.

Výpočet K-S testu v MS Excel je na videu.

Výhodou Kolmogorov-Smirnov testu je jeho neomezení počtem četností výskytu v očekávaných hodnotách méně než 5, a tak ho lze využít jako alternativu, kde není možno použít chí-kvadrát test, nicméně stále platí, že v žádné skupině nesmí být 0.


Z-test

Pokud z nějakého důvodu potřebujete testovat poměry a nikoliv četnosti, tak nemůžete použít chí-kvadrát test (který asi jako první nabízí), protože velikost souboru ovlivňuje kritickou hodnotu chí-kvadrát testu a je tedy rozdíl jestli jste v pokusu měli 10, 25 100, nebo 2500 objektů a převodem na procentický poměr byste všechny výše uvedené četnosti převedli na 100.

V případech nutnosti testování poměrů se požívá z-test, který není předmětem naší výuky a návod na jeho výpočet najdete v učebnici R jako kapitolu Advanced R3.

Videoprezentace


Vizualizace nominálních dat

Četnosti jsme se naučili vizualizovat pomocí histogramu, kromě něj můžeme použít klasické koláčové grafy a nejvhodnější je vizualizace pomocí mozaikových grafů (mosaicplots). Návod pro R včetně videa najdete v sedmé lekci R.


ORDINÁLNÍ DATA (8. lekce R)

Další zde uvedené testy jsou určeny pro ordinální data a založeny jsou na porovnávání pořadí.

MS Excel je schopen přiřadit pořadí hodnotám funkcí, která se jmenuje rank. Zde nezapomínejte používat opravný faktor, jehož hodnotu musíte přičíst k hodnotě získané funkcí rank – je to nutné, pač ve Vašich datech může být jedna hodnota vícekrát a funkce rank jim všem přiřadí nejmenší hodnotu pořadí, což je pro tyto metody špatně – tam musíte mít v těchto případech průměrnou hodnotu pořadí těchto čísel.

Videoprezentace


Mann-Whitney test

Testujeme shodu rozdělení jedné měřené proměnné u dvou provedených výběrů. Jde o základní test sloužící k porovnání dvou výběrů (= jde o ordinální obdobu dvouvýběrového t-testu). Test vychází z pořadí a počtu měření. Základní informační shrnutí je na tabuli.

Mann-Whitney test.
  • Příklad z přírodních věd 1: Měřili jsme pH na dvou typech stanovišť rašeliništní vegetace nejmenované oblasti. Chceme zjistit, jestli se liší hodnoty pH mezi vegetacemi druhově bohatými a druhově chudými. Příprava dat pro výpočet v MS Excel je na videu a na tomto videu je vlastní výpočet testu.
  • Příklad z přírodních věd 2: Měřili jsme koncentraci Ca2+ iontů na dvou typech stanovišť rašeliništní vegetace nejmenované oblasti. Chceme zjistit, jestli se liší hodnoty koncentrace Ca2+ iontů mezi vegetacemi druhově bohatými a druhově chudými. Použijte stejný soubor jako v příkladu předchozím.
  • Příklad z přírodních věd 3: Pro brusnici brusinku byla sledována míra konkurenceschopnosti na jižních a severních svazích při horských hřebenech – sledována byla pokryvnost druhu na 20 plochách 1 x 1 metr na svazích s jižní a severní expozicí, nulová hypotéza zní – Podmínky svahu jižní a severní expozice neovlivňují pokryvnost brusnice brusinky při horských hřebenech.
  • Příklad ze společenských věd: chci zjistit, jestli se v České republice liší návštěvnost zámků a hradů – z NIPOS získám informace o návštěvnosti hradů a zámků pro ČR např. za rok 2012 a provedu test nulové hypotézy – návštěvnost hradů a zámků v ČR se neliší.

Videoprezentace


POZOR!!!

Vzhledem k tomu, že U je definována jako jakákoliv hodnota, která má být malá, když platí H1, tak jsou statisticky významné hodnoty testovacího kritéria nižší než daná kritická hodnota.
Lze brát nižší hodnotu U nebo (jak je uvedeno v učebnici) vyšší hodnotu U – pro oba postupy se tabulky liší.
Pro jednostranný test záleží na tom, jestli řadíte hodnoty od nejvyšší k nejmenší, nebo je řadíme od nejmenší k největší.

Srovnat lze i větší počet nezávislých výběrů, test se jmenuje Kruskal-Wallisův test (viz zde dole).

Wilcoxonův test

Používá se pro testování párových dat – jedna měřená proměnná u jednoho výběru, kde je každý objekt (jedinec, …) měřen dvakrát. Test je založen na pořadí rozdílů jednotlivých měření (= jde o ordinální obdobu párového t-testu). Základní informační shrnutí je na tabuli.

Wilcoxonův test.
  • Příklad z přírodních věd 1: Na rašeliništích jsme měřili pH podzemní vody na jaře a v létě. Existuje rozdíl mezi jarním a letním měřením? Řešení v MS Excel je na videu.
  • Příklad z přírodních věd 2: Na stejných lokalitách jako pH jsme měřili na jaře a v létě konduktivitu. Existuje rozdíl mezi jarním a letním měřením? Použijte stejný soubor jako v předchozím příkladu.
  • Příklad ze společenských věd 1: Má návštěva turistického místa vliv na percepci jeho zajímavosti? Návštěvníci mají před návštěvou rozhodnout o míře zajímavosti určitého místa, následně toto místo navštíví a s odstupem času po návratu se osloví stejným dotazem jako před odjezdem. Podmínkou je zajištění možnosti spárování odpovědí před odjezdem a po návratu.
  • Příklad ze společenských věd 2: Existují rozdíly v odměňování personálu hotelů podle příslušnosti k české a ukrajinské národnosti. Podmínkou provedení testu je získání informací o výši odměny vyplácená českým a ukrajinským pracovnicím v hotelu – párují se informace za hotel.

Videoprezentace

Srovnat lze i větší počet závislých výběrů, test se jmenuje Friedmanova ANOVA – k ní se však dostaneme až v navazujícím kurzu, jinak je tady dole.