Neparametrické metody

Neparametrické metody jsou určeny primárně pro testování statistických hypotéz týkajících se nominálních a ordinálních dat. V případě dat nominálních vyhodnocujeme četnosti – jen ty mají kvantitativní charakter, jinak vlastní nominální data mají informaci kvalitativní (pohlaví, barva, typ čehokoliv). Testování hypotéz u ordinálních dat se děje na základě pořadí zjištěných hodnot – v testech se nepracuje přímo s měřenými hodnotami, ale s jejich pořadími.

Využít tyto metody lze i pro data vyšší úrovně. V případě, že tato data nesplňují některou z podmínek testů určených pro tyto data, a my je musíme testovat, pak nemáme na výběr, a použijeme neparametrických metod. Nicméně, pokud je to možné, měli bychom použít metod parametrických, protože neparametrické testy jsou obvykle “měkčí” než testy parametrické.

NOMINÁLNÍ DATA

Chí-kvadrát testy

Hodnoty důležité pro výpočet chí-kvadrát testu jsou obvykle zjistitelné z kontingenční tabulky našich dat. MS Excel je schopen jej vypočítat pomocí funkce chitest (nové verze používají funkci CHISQ.TEST), jen si budete muset sami napsat nebo vypočítat očekávané hodnoty (navíc MS Excel vrací jen hodnotu p a nikoliv chí-kvadrátu a d.f.).
Vzorec se naučte a najdete jej na straně 24 nahoře (Lepš, 1996, Vz. 2-1).

Nejčastěji používáme chí-kvadrát test ve dvou typech případů:

Testuji rozložení mé jedné proměnné oproti předpokládanému (teoretickému) rozložení této proměnné (Lepš, 1996, s. 23-27) = jednovýběrový chí-kvadrát test dobré shody

Základní informační shrnutí je na tabuli.

  • Příklad z přírodních věd 1: sleduji schopnost myšice křovinné překonat vodní tok při hledání potravy, odchytem do pastí jsem zjistil, že z celkového počtu opakovaného odchytu jich vodní tok překonalo 20, z toho bylo 13 samic a 7 samců. Mohu se ptát, existuje rozdíl v míře bariérového efektu vodního toku mezi samci a samicemi? Očekávané hodnoty, proti nimž testuji mé měření jsou 10:10, protože předpokládám, že poměr mezi pohlavími je na lokalitě 50 % na 50 %.
  • Příklad z přírodních věd 2: Ve vymezené oblasti byly sledovány tři asociace jednoho vegetačního svazu, jejich zastoupení na celkovém výskytu svazu v oblasti bylo 3:11:7. Liší se toto rozdělení četností od očekávaného poměru zastoupení 1:1:1?
  • Příklad ze sociálních věd: v návštěvnosti zámku Kratochvíle jsem zjistil variabilitu v návštěvnosti podle věku návštěvníků. Mohu se ptát, odpovídá věková struktura návštěvnosti zámku Kratochvíle věkové struktuře obecné populace ČR? Poměr věkových kategorií zjistím z údajů ČSÚ.
Chí-kvadrát test používáme při testování souvislostí výskytu kombinací hodnot dvou proměnných (Lepš, 1996, s. 32-37) = dvouvýběrový chí-kvadrát test

Základní informační shrnutí je na tabuli.

  • Příklad z přírodních věd 1: U jistého druhu hlodavce v Arizoně byly identifikovány čtyři odstíny kožichu – tmavě hnědá, tmavě okrová, světle hnědá a světle okrová. Liší se zastoupení identifikovaných barev mezi pohlavími daného druhu hlodavce? Zastoupení měřených hodnot je následující: samice – 64:32:86:18; samci – 55:64:65:16.
  • Příklad z přírodních věd 2: Liší se zastoupení druhově bohatých a druhově chudých lokalit ve třech vegetačních typech ve vymezeném území. Použijte soubor data1.xlsx, pro něj víme, že vegetační typ 2 patří do jednoho svazu a vegetační typ 2 do jiného svazu. (Budete muset slučovat kategorie a použít Yatesovu korekci.)
  • Příklad z přírodních věd 3: Má barva samice vliv na to, jestli na ní jsou nebo nejsou zavěšeni při rozmnožování samci? Použijte soubor nominalni.xlsx a proměnné samice-barva a samci-ano.
  • Příklad ze sociálních věd: Zámek Hluboká inovoval expozici trofejí třemi novými prvky a chce zjistit, jestli některá z těchto inovací ovlivnila spokojenost s návštěvou zámku a předpokládá, že spokojenost bude ovlivněna pohlavím (lovecké trofeje budou spíše doménou mužů než žen). Byl sestaven dotazník, kde měl každý z respondentů označit inovaci, se kterou je nejvíce spokojen a své pohlaví. Pak mohu testovat nulovou hypotézu: míra percepce atraktivnosti dílčích inovací je nezávislá na pohlaví návštěvníka.

V tomto případě použití nám “chybí” očekávané hodnoty – ty se pro každou buňku matice 1. proměnná versus 2. proměnná určí jako podíl součinu součtu četností daného řádku a součtu četností daného sloupce a celkového počtu pozorování (Lepš, 1996, Vz. 3-4). V případě software STATISTICA je není nutné počítat, program to udělá sám – video.

Při výpočtech pamatujte na omezení chí-kvadrát testu, že žádná očekávaná četnost nesmí být nulová (nulou dělit nelze) a neměla by být menší než 1, což se běžně stává při měřených četnostech 0, a maximálně 20 % všech četností může být menších než 5 (žádná hodnota pod 5 u 2×2 tabulek). Pokud je menších četností více, je nutno použít Yatesovu korekci (Lepš, 1996, Vz. 3-5), kterou se doporučuje provádět jen v 2 x 2 tabulkách. K tomu, abyste mohli vypočítat chí-kvadrát s Yatesovou korekcí, budete muset znát funkci MS Excel abs, která vrací absolutní hodnotu čísla nebo čísla vyjádřeného výrazem.

Fisherův exaktní test

Velkým problémem chí-kvadrát testu je to, že hodnota “p” je pouze odhadem, neboť rozdělení náhodného výběru nominálních dat je jen aproximací chí-kvadrát rozdělení. Tato aproximace je nespolehlivá u malých počtů měření a především v 2×2 kontingenčních tabulkách. Mám-li 2×2 kontingenční tabulku o malých četnostech, včetně nuly, pak se jako nejvhodnější varianta doporučuje použít Fisherův exaktní test. Testuje se nulová hypotéza, že rozdělení objektů podle dvou kritérií je odlišné od hypergeometrického rozdělení. Počítá se pouze hodnota “p”, kterou se testuje odlišnost sloupců od řádků. Vzorec pro výpočet je:

p = ((a+b)! (c+d)! (a+c)! (b+d)!)/(a! b! c! d! n!)

kde p je hladina významnosti, a, b, c, d jsou hodnoty v kontingenční tabulce v uspořádání SZ, SV, JZ, JV a n = a+b+c+d. Obrovskou výhodou je možnost použití tohoto testu, i když se některá z hodnot a,b,c,d rovná nule, neboť 0!=1. V MS Excel se tedy naučíme další funkci – faktoriál.

  • Příklad z přírodních věd 1: Typické využití Fisherova exaktního testu je při testování společného výskytu dvou druhů při nízkém počtu měření. H0 zní, že neexistuje závislost ve výskytu dvou druhů. Navštívili jsme 15 náhodně vybraných lokalit a sledovali jsme výskyt dvou druhů ostřic, v 2×2 tabulce máme výskyt 6, 2, 1, 6, otázka zní, je výskyt těchto dvou druhů ostřic nezávislý? Řešení v MS Excel je na videu.
  • Příklad z přírodních věd 2: Tímto testem testuji v JUICE koncentraci druhu v typu společenstva – musím mít definovány skupiny v základní tabulce (např. výsledek TWINSPANu, shlukové analýzy nebo ručně). Pak volím Synoptic Table a v něm Fidelity. Test si nastavím v Threshold Value na kartě Fidelity Measures, pak v Type . . . dávám phi coefficient a ve Standardisation . . . zaškrtrávám Calculate Fisher´s exact test.

Realstatistics podporuje Fisherovy exaktní testy v kontingenčních tabulkách 2×2 až 5×2, 3×2 a 3×3.

Kolmogorov-Smirnov test

Jde o alternativu chí-kvadrát testu. Testují se v něm rozdíly mezi výběry (dvouvýběrový) nebo výběrem a teoretickým rozdělením (jednovýběrový test dobré shody) v relativních kumulativních četnostech (absolutní hodnota rozdílu). Největší rozdíl je pak testovacím kritériem, které je posuzováno oproti tabelované kritické hodnotě pro odpovídající hladinu významnosti a počet stupňů volnosti (d.f. = počet měření (n)).

Jednovýběrový Kolmogorov-Smirnov test se nejčastěji používá k testování shody rozložení dat s teoretickým rozdělením, nejčastěji normálním – video.

Výhodou Kolmogorov-Smirnov testu je jeho neomezení počtem četností výskytu v očekávaných hodnotách méně než 5, a tak ho lze využít jako alternativu, kde není možno použít chí-kvadrát test, nicméně stále platí, že v žádné skupině nesmí být 0.

ORDINÁLNÍ DATA

Další zde uvedené testy jsou určeny pro ordinální data a založeny jsou na porovnávání pořadí. MS Excel je schopen přiřadit pořadí hodnotám funkcí, která se jmenuje rank. Zde nezapomínejte používat opravný faktor, jehož hodnotu musíte přičíst k hodnotě získané funkcí rank – je to nutné, pač ve Vašich datech může být jedna hodnota vícekrát a funkce rank jim všem přiřadí nejmenší hodnotu pořadí, což je pro tyto metody špatně – tam musíte mít v těchto případech průměrnou hodnotu pořadí těchto čísel.

Mann-Whitney test

Testujeme shodu rozdělení jedné měřené proměnné u dvou provedených výběrů (Lepš, 1996, s. 70-72, včetně všech vzorců). Jde o základní test sloužící k porovnání dvou výběrů. Test vychází z pořadí a počtu měření. Základní informační shrnutí je na tabuli.

  • Příklad z přírodních věd 1: Měřili jsme pH na dvou typech stanovišť rašeliništní vegetace nejmenované oblasti. Chceme zjistit, jestli se liší hodnoty pH mezi vegetacemi druhově bohatými a druhově chudými. Příprava dat pro výpočet v MS Excel je na videu a na tomto videu je vlastní výpočet testu.
  • Příklad z přírodních věd 2: Měřili jsme koncentraci CA2+ iontů na dvou typech stanovišť rašeliništní vegetace nejmenované oblasti. Chceme zjistit, jestli se liší hodnoty koncentrace Ca2+ iontů mezi vegetacemi druhově bohatými a druhově chudými. Použijte stejný soubor jako v příkladu předchozím.
  • Příklad z přírodních věd 3: Pro brusnici brusinku byla sledována míra konkurenceschopnosti na jižních a severních svazích při horských hřebenech – sledována byla pokryvnost druhu na 20 plochách 1 x 1 metr na svazích s jižní a severní expozicí, nulová hypotéza zní – Podmínky svahu jižní a severní expozice neovlivňují pokryvnost brusnice brusinky při horských hřebenech.
  • Příklad ze společenských věd: chci zjistit, jestli se v České republice liší návštěvnost zámků a hradů – z NIPOS získám informace o návštěvnosti hradů a zámků pro ČR např za rok 2012 a provedu test nulové hypotézy – návštěvnost hradů a zámků v ČR se neliší.

POZOR!!!

  • Vzhledem k tomu, že U je definována jako jakákoliv hodnota, která má být malá, když platí H1, tak jsou statisticky významné hodnoty testovacího kritéria nižší než daná kritická hodnota.
  • Lze brát nižší hodnotu U nebo (jak je uvedeno v učebnici) vyšší hodnotu U – pro oba postupy se tabulky liší. My budeme odchylně od učebnice používat tabulek, kde se bere nižší hodnota.
  • Pro jednostranný test záleží na tom, jestli řadíte hodnoty od nejvyšší k nejmenší, nebo je řadíme od nejmenší k největší.

Srovnat lze i větší počet nezávislých výběrů, test se jmenuje Kruskal-Wallisův test (viz zde dole).

Wilcoxonův test

Používá se pro testování párových dat – jedna měřená proměnná u jednoho výběru, kde je každý jedinec měřen dvakrát. Test je založen na pořadí rozdílů jednotlivých měření (Lepš, 1996, s. 72-74, včetně všech vzorců). Základní informační shrnutí je na tabuli.

  • Příklad z přírodních věd 1: Na rašeliništích jsme měřili pH podzemní vody na jaře a v létě. Existuje rozdíl mezi jarním a letním měřením? Řešení v MS Excel je na videu.
  • Příklad z přírodních věd 2: Na stejných lokalitách jako pH jsme měřili na jaře a v létě konduktivitu. Existuje rozdíl mezi jarním a letním měřením? Použijte stejný soubor jako v předchozím příkladu.
  • Příklad ze společenských věd 1: Má návštěva turistického místa vliv na percepci jeho zajímavosti? Návštěvníci mají před návštěvou rozhodnout o míře zajímavosti určitého místa, následně toto místo navštíví a s odstupem času po návratu se osloví stejným dotazem jako před odjezdem. Podmínkou je zajištění možnosti spárování odpovědí před odjezdem a po návratu.
  • Příklad ze společenských věd 2: Existují rozdíly v odměňování personálu hotelů podle příslušnosti k české a ukrajinské národnosti. Podmínkou provedení testu je získání informací o výši odměny vyplácená českým a ukrajinským pracovnicím v hotelu – párují se informace za hotel.

Srovnat lze i větší počet závislých výběrů, test se jmenuje Friedmanova ANOVA – k ní se však dostaneme až v navazujícím kurzu, jinak je tady dole.