Asociační koeficienty

Základy: Podobnosti, nepodobnosti a vzdálenosti

Vstupním souborem pro vícerozměrné statistické metody jsou tabulky charakteru databáze, kdy na řádcích jsou jednotlivé případy (= objekty, jejich počet je značen n) a ve sloupcích jsou jednotlivé parametry (jejich počet je značen p). K dispozici je tedy n x p matice objektů a parametrů. Z ní je počítána asociační matice (= matice vztahů), kde v řádcích i sloupcích jsou jednotlivé parametry a v matici jsou na základě hodnot objektů počítané asociační koeficienty (Haruštiaková et al., 2012 kap. 4).

Asociační koeficienty proměnných

Základní asociační koeficienty proměnných jsme poznali v základní statistice – kovarianci, Pearsonův korelační koeficient, Spearmanův korelační koeficient.

Asociační koeficienty vzdálenosti objektů

Ty patří v mnohorozměrných analýzách k nejvýznamnějším. Jejich podstatou je skutečnost, že koeficient má maximální hodnotu dvou objektů, které jsou nejvíce odlišné a objekty identické mají vzdálenost nulovou. Podmínky uvádí Haruštiaková et al. (2012) na s. 16, zde je i jasný popis nejčastěji používané metriky vzdálenosti – Euklidovská metrika – na příkladu dvou proměnných. Její použití předpokládá standardizovaná vstupní data. Vzhledem k tomu, že je základem shlukových analýz, je jasný požadavek na standardizaci dat před využitím shlukové analýzy. Dále jsou uvedeny další metriky bojující s nedostatky euklidovské vzdálenosti.

Asociační koeficienty podobnosti objektů

Nejsou metrické = neplatí pro ně zásady uvedené na s. 16 (Haruštiaková et al., 2012) a nelze je přímo umístit v metrickém prostoru – nicméně je lze převést na vzdálenosti. Jejich základem je posouzení “shody” v hodnotách dosažených u jednotlivých proměnných (u většiny koeficientů platí, že je míra podobnosti je vlastně vyjádřením relativní shody). Koeficienty mohou být symetrické nebo nesymetrické – nesymetrické jsou založeny na předpokladu, že některé kombinace dosažených hodnot mají jinou váhu než ostatní – typicky duplicitní nulové hodnoty u srovnávaných objektů nejsou informací o podobnosti. Koeficienty byly vyvinuty primárně pro binární proměnné a následně byly určeny i jejich kvantitativní varianty – tabulky v kapitole 4 (Haruštiaková et al., 2012) jsou snad jasné.

Kejkle s daty

Transformace a metody “standardizace”

Transformace dat se provádí relativně velmi často, a to především ve dvou případech – buď potřebujeme “zlineárnit” závislosti proměnných (např. u lineární regrese) nebo častěji přiblížit rozdělení získaných dat normálnímu rozdělení (abychom mohli použít statistiky, které předpokládají normalitu v datech – např. u ANOVA). Přehled tří nejčastěji používaných transformací uvádí Lepš (1996, s. 99-102 a 113-116). Transformace dat ve STATISTICA je na videu a je podobná jako v práce v MS Excel.

 

Transformace dat ve STATISTICA.

 

Dalšími úpravami dat, které některé statistické metody vyžadují jsou centrování, standardizace a normalizace (Haruštiaková et al., 2012, kap. 2.2.2 a 2.2.3).

Například u mnohonásobné lineární regrese je jedno, jestli jsou jednotlivé vysvětlující proměnné na různých škálách (pH nabývá jiných absolutních hodnot než teplota nebo koncentrace iontů), nicméně u mnohorozměrných metod to “jedno” není (především to platí pro shlukovou analýzu) a jednotlivé proměnné je třeba převést na jednotkovou stupnici, tedy “zrelativnit” vlastní měřená data. Nejvýhodnějším postupem je tzv. standardizace směrodatnou odchylkou (Z-skóre), kdy od každé měřené hodnoty proměnné odečtu průměrnou hodnotu všech měření a tento rozdíl vydělím směrodatnou odchylku tohoto průměru. Ve výsledku pak získám proměnnou jejíž průměr je 0 a směrodatná odchylka 1. Pokud to provedu se všemi vysvětlujícími proměnnými, pak jsem je převedl na stejné měřítko. MS Excel na ni má samostatnou funkci – standardize. Standardizací ale existuje větší množství.

V některých případech však potřebuji, aby byly převedeny měřené proměnná na jednotné měřítko, ale výsledné hodnoty zůstaly kladné. Nejčastěji se tak děje pomocí lineární normalizace, jejímž výsledkem jsou hodnoty od 0 do 1. Používá se různých postupů – nejjednodušším je min-max normalizace označovaná i jako standardizace rozpětím:

xi’ = (xi – min(x1, . . . xn))/(max(x1, . . . xn) – min(x1, . . . xn))

Matematicky nejjednodušším převedením na relativní měřítko je centrování, které zahrnuje pouze odečtení průměru proměnné od konkrétní měřené hodnoty.

Komplikované je rozhodování o transformacích v mnohorozměrných analýzách, kdy vysvětlovanou proměnnou není jedna měřená charakteristika, ale druhové složení (Lepš et Šmialuer, 2000, kapitola 1.11.). POZOR – pokud v botanice používáte Braun-Blanquetovu stupnici, kterou kódujete 1 až 7 nebo 9, tak stupnice už v podstatě logaritmická je.

Chybějící data

Je obvyklé, že v měřeních máme nějaká data chybějící – prostě z nějakých příčin nebylo možné měření uskutečnit – respondent odmítl odpovědět, louže pro odebírání vody vyschla, zapomněl jsem doma metr. Nemělo by se to stát, ale co když se to stane? Možná řešení uvádí v přehledu Haruštiaková et al. (2012, kap. 2.2.1)

Soubory pro R

Na to, abychom mohli pracovat v R, nepotřebujeme umět programovat, ale musíme být schopni s ním pracovat. Prostředí RStudio, je stejně jako R zadarmo a je určeno pro usnadnění práce, kterou po prvním nutném seznámení zvládne každý. My jsme se zde pokusili představit základy práce s R představit v 11 lekcích, na něž navazují nejrůznější rozšíření, která Vaši předchůdci potřebovali při práci na BP a DP.

ver. 201216

Základní externí informační zdroje

On-line učebních materiálů, které jsou vynikajícím způsobem připraveny, je hodně a z nich pro Vás vybíráme následující:

Instalace

  • nejprve musíte stáhnout a nainstalovat R, kompletní přehled možností je zde
    • aktuální verze R pro Windows7-10 (září 2020) je zde (odkaz vede přímo na instalační soubor)
  • pak si musíte stáhnout a nainstalovat R Studio, kompletní přehled možností je zde
    • aktuální verze R Studia pro Windows7-10 (září 2020) je zde (odkaz vede přímo na instalační soubor)
  • výše uvedené odkazy vedou na nejaktuálnější (v září 2020) verze, ve škole na počítačích jsou však verze ze září 2018, proto ani některé věci budou jinak ve škole a doma, s tím ale nejsme schopni nic udělat 🙂
  • případný problém s instalací packages je způsoben diakritikou v názvu účtu v Users
    • Problém jsem našel v tom, že instalaci packages provádí R Studio do adresářové struktury R/win-library/3.5, kterou vytváří sám ve složce Dokumenty, jež je pod složkou Users, mno a pokud se účet jmenuje třeba”uživatel”, tak si R Studio, jelikož v tomto případě nezná diakritiku, do adresářové struktury píše místo “ž” otazník a pak logicky není schopen tuto cestu najít, protože hledá v Users složku “u?ivatel”, která tam není, bo je tam “uživatel”. Pokud k tomu dojde, tak je třeba ručně zadat celou strukturu R/win-library/3.5 do Dokumentů v Průzkumníkovi nebo File Manageru, pak je třeba v R Studiu spustit instalaci prvního package oklikou přes Import Dataset – From Excel, který instaluje package automaticky a už sám vidí námi vytvořenou cestu – ten nainstaluje package readxl, mno a teprve pak už lze instalovat klasicky přes Packages-Install, protože software už ví, kde struktura adresářů R/win-library/3.5 je, a už je schopen do ní ukládat.
  • R je freeware běžící na nejrůznějších systémech a skripty se mezi nimi dají tahat, ale přišli jsme na to, že například mezi Macy a W10 dochází k drobným odchylkám, které jsme ale rychle vyladili, tak to snad bude OK i nadále
  • do setwd vkládejte na školních počítačích “C:/Users/ucebna/Documents/R”
  • v našich materiálech je cesta “C:/Users/uživatel/Documents/R”, protože tak to bylo v roce 2018 a pro rok 2019 účet přejmenovali
  • cesta k souborům na flešce vy měla být “E:/R/nazevsouboru.xlsx, pokud je máte na počítači, pak je dávejte do R v Dokumenty, takže cesta bude “C:/Users/ucebna/Documents/R/nazevsouboru.xlsx

Klávesové zkratky

R používá několik speciálních symbolů, jejichž klávesové zkratky je dobré znát nazpaměť:

  • CTRL + Enter: vykonávání příkazů ze zdrojového souboru skriptu do Console
  • Alt + 35: symbol dvojitého křížku pro vkládání poznámek ve skriptu
  • Alt + “dolní podtržítko”: vytvoření symbolu pro definování objektů, tedy “šipka”
  • Alt + 36: symbol dolaru pro výběry sloupců v datových tabulkách
  • Alt + 34: uvozovky
  • Alt + 126: vlnovka pro výběr skupin v proměnné

Video 1 – Studijní materiály

Video 2 – Spuštění programu

Video 3 – Základy ovládání

 

1. Lekce: Funkcionalita

Funkcionalitu si nejlépe ukážeme na konkrétním případě, kterým bude úkol na sestrojení box-plotu z dat uložených v MS Excel.

Data – zde

R soubor – zde

Video 4 – Instalace “package”, import dat, vytvoření objektu

Video 5 – Funkcionalita na příkladu krabicového grafu

Video 6 – Přehled funkcionality- dokončení

Video 9 – Export grafů

Co jsme se naučili:

  • otevřít a program a ukončit práci programu
  • poznali jsme aktivaci knihovny
  • uložení objektu
  • práce s nápovědou
  • práce s funkcemi
  • zadávání atributů a jejich funkčnost

Poznané funkce:

  • setwd() – nastavuje pracovní adresář
  • library() – aktivuje package
  • read_excel() – s cestou načte soubor s koncovkou XLS a XLSX
  • class() – identifikuje typ objektu
  • boxplot() – vytvoří z daného souboru box-plot podle nastavených atributů
  • help() – vypíše nápovědu k zadané funkci
  • c() – funkce pro definování vektorů
  • bxp() – funkce pro úpravu grafiky uloženého objektu z výstupu funkce boxplot()
  • (boxplot()) – vypíše číselné údaje z funkce boxplot()

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”, v MS Excel si rozdělte data podle pohlaví (1= samci, 2= samice), v R vytvořte boxploty srovnávající variabilitu samců a samic postupně podle délky, výšky a šířky.

2. Lekce: Práce s vektory

V této části se naučíme pracovat se základními objekty, kterými jsou vektory a od nich odvozené faktory (= kategoriálními vektory)

Data – budeme si je postupně sami tvořit v R

R soubor – zde

Video 7 – Kompletní 2. lekce

Co jsme se naučili:

  • operátory a v rámci nich používat R jako kalkulačku
  • definování vektoru
  • spojování vektorů
  • mazání objektů
  • pojmenovávání prvků objektů
  • postup výběru prvků (jednoduché hranaté závorky)
  • funkce pro charakteristiky polohy a variability
  • že funkce lze kombinovat

Poznané funkce:

  • rm() – zmaže zadaný objekt
  • names() – pojmenovává prvky objektů (v pořadí prvků)
  • lenght() – vrací dálku vektoru
  • mean() – aritmetický průměr z číselného vektoru
  • median() – medián číselného vektoru
  • min() – minimální hodnota z číselného vektoru
  • max() – maximální hodnota z číselného vektoru
  • quantile() – kvantily z číselného vektoru
  • sd() – směrodatná odchylka z číselného vektoru
  • var() – rozptyl z číselného vektoru
  • sqrt() – druhá odmocnina z čísla

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Podzemní voda na rašeliništích”. Použijte One-way ANOVA a Kruskal-Wallisův test k testování
  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”, v MS Excel si rozdělte data podle pohlaví (1= samci, 2= samice), v R vypočítejte hodnoty průměru, mediánu,minima, maxima, dolního a horního kvartilu, směrodatné odchylky, rozptylu a variačního koeficientu délky jedinců zvlášť pro jednotlivá pohlaví.

3. Lekce: Práce s “tabulkami”

Minule jsme se podívali na vektory, nyní se podíváme na práci s tabulkami, které budeme hodnotit častěji než samotné vektory/faktory

Data – budeme si je postupně sami tvořit v R

R soubor – zde

Video 8 – 3. lekce, 1. část (matice a tvorba datových tabulek)

Video 10 – 3. lekce, 2. část (práce s datovými tabulkami a seznamy)

Co jsme se naučili:

  • poznali jsme typy “tabulek” = matice, pole, datové tabulky, seznamy
  • ručně spojením vektorů vytvořit výše uvedené datové typy
  • výběry položek z výše uvedených datových typů
  • vytvořit prázdnou matici, pole, datovou tabulku, seznam a nakrmit je daty
  • přidání sloupců (a jiných objektů) do již existujících matic, polí, datových tabulek, seznamů
  • spojení datových tabulek podle definice
  • konverzi mezi maticí a datovou tabulkou
  • výběry z matic, polí, datových tabulek, seznamů
  • seřazení hodnot vektoru
  • vytvořit seznam
  • tvořit dotazy na složité seznamové struktury

Poznané funkce:

  • cbind() – spojuje vektory do matice po sloupcích; stejně tak je schopna slepit datové tabulky a matice
  • rbind() – spojuje vektory do matice po řádcích
  • t() – transponuje matici
  • matrix() – vytvoří matici
  • colnames() – pojmenování sloupců
  • rownames() – pojmenování řádků
  • array() – vytvoří pole
  • data.frame() – vytvoří datovou tabulku
  • rep() – příkaz pro opakování hodnoty (často při vytváření vektorů)
  • merge() – spojení datových tabulek
  • is.factor() – dotaz jestli je vektor faktor
  • summary() – volání sumárních dat z datové tabulky
  • as.data.frame() – vytvoří z matice datovou tabulku
  • as.matrix() – vytvoří z datové tabulky matici
  • sort() – seřadí hodnoty vektoru
  • list() – vytvoří seznam

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Podzemní voda na rašeliništích”. V R si funkcí c() vytvořte proměnné pH1 a pH2, které bude mít stejné hodnoty jako v dané XLS tabulce. Spojte je do jediné matice. Tuto matici převeďte na datovou tabulku. Získejte sumární informace za obě proměnné této matice.
  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. V R si ručně vytvořte obraz této tabulky.

4. Lekce: Histogram a sloupcové grafy

Histogram i sloupcové grafy lze MS Excel vytvořit vcelku jednoduše, ale naučme se je tvořit i v R (když už nic, tak vypadají lépe).

Data – vytvoříme si je sami

R soubor – zde

Video 11 – Kompletní 4. lekce

Co jsme se naučili:

  • vytvořit histogram s absolutními relativními počty
  • upravit histogram graficky
  • využít data z funkce histogram po úpravě k tvorbě obecného grafu
  • vytvořit kumulativní histogram
  • vytvořit a upravit sloupcový graf

Poznané funkce:

  • hist() – vytvoří histogram
  • cumsum() – přepočítá vektor do své kumulativní podoby
  • (hist()) – vypíše hodnoty histogramu
  • plot() – vykreslí podle zadaných hodnot graf
  • histogram() – tvorba histogramu v package lessR
  • barplot() – vytvoří sloupcový graf

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Podzemní voda na rašeliništích”. Převeďte ji do R. V R vytvořte histogram a kumulovaný histogram pro proměnnou pH1.
  • V postu Data si stáhněte XLS tabulku označenou jako “Tělesná teplota (ráno, v poledne, večer)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte) a vytvořte v R sloupcový graf srovnávající teplotu každého jedince v ráno, poledne a večer.

 

Cvičení 5

Úkol pro úvod 5. cvičení je zde

5. Lekce: Posouzení normality dat

Použití většiny parametrických metod je mimo jiné vázáno na předpoklad dat pocházejících ze základního souboru s normálním rozdělením. Tento předpoklad musíme posoudit.

Data – zde

R soubor – zde

Video 12 – Kompletní 5. lekce

Co jsme se naučili:

  • vytvořit q-q plot
  • vypočítat šikmost a špičatost
  • vypočítat Shapiro-Wilks test

Poznané funkce:

  • qqnorm() – vytvoří q-q graf
  • qqline() – do q-q grafu nakreslí přímku pro normální rozdělení
  • skewness() – vypočítá šikmost v package e1071
  • kurtosis() – vypočítá špičatost v package e1071
  • shapiro.test() – vypočítá Shapiro-Wilks test a vrátí hodnotu testu a jeho p

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Posuďte pomocí q-q grafu normalitu proměnné šířka zvlášť pro samce (=1) a samice (=2).
  • Použijte data z předchozího úkolu a vypočítejte hodnoty šikmosti a špičatosti pro šířku zvlášť pro samce (=1) a samice (=2).
  • Použijte data z předchozího úkolu a vypočítejte test normality Shapiro-Wilks testem pro šířku zvlášť pro samce (=1) a samice (=2).

Cvičení 6

Úkol pro úvod 6. cvičení je zde

6. Lekce: T-testy a F-test

Při používání základních parametrických testů už poznáte, že naučit se R v R Studio byl dobrý nápad, protože vše jde snadno zadáním jediného příkazu.

Data – zde

R soubor – zde

Video 13 – Kompletní 6. lekce

Co jsme se naučili:

  • vypočítat jednotlivé t-testy (jednovýběrový, párový, dvouvýběrový, oboustranný, jednostranný, s/bez rovnosti rozptylů)
  • vypočítat F-test

Poznané funkce:

  • t.test() – vypočítá t-testy
  • var.test() – vypočítá F-test

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte jednovýběrovým t-testem, jestli existuje rozdíl mezi průměrnou šířkou samce (=1) z daných měření a očekávanou šířkou 100.
  • V postu Data si stáhněte XLS tabulku označenou jako “Tělesná teplota (ráno, v poledne, večer)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte párovým t-testem, jestli se liší teplota jedince ráno a večer.
  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte párovým t-testem rozdíl v průměrech délky mezi samci a samicemi (1= samci, 2= samice), použijte oboustranný test a variantu pro rovnost rozptylů.
  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte F-testem rozdíl v rozptylech výšky mezi samci a samicemi (1= samci, 2= samice).

Po této lekci je mid-term exam!!!!!!!!!

Co se v něm může objevit?

  • výpočty charakteristik polohy a variability (průměr, medián, modus, rozptyl, směrodatná odchylka, kvartily, minimum, maximum, variační koeficient)
  • posouzení normality dat (šikmost, špičatost, Shapiro-Wilks test v R nebo Kolmogorov-Smirnov test v MS Excel)
  • testování hypotéz – t-testy, F test (výpočet jednovýběrového t-testu, párového t-testu, dvouvýběrového t-testu, F-testu)

Data budou zadána v R scriptu pomocí funkcí c(), pokud je k výpočtu třeba tabulka dat (například v případech počítání t-testů a F-testu), tak součástí zadání jsou i příkazy na vytvoření matice pomocí cbind() a tabulky dat as.data.frame(). Tedy tyto příkazy si nebudete tvořit sami, ale budete je mít už od nás napsané – jen je budete muset klávesou CTRL+Enter provést. Toto opatření je nutné z důvodu zjištěné nepřímé funkcionality instalace packages na počítačích v ZR-Z12 – problém, který jsme zažili po prvním spuštění RStudia se bude při každé aktualizaci opakovat a nemůžeme riskovat, že se to stane při zápočtu. Kdo by chtěl výpočty dělat v MS Excel, tak si bude muset čísla do sešitu překopírovat/přepsat.

Při mid-term testu budete mít k dispozici kromě souboru s daty i soubor se všemi šesti lekcemi R, který je zde.

7. Lekce: Testování rozdílů v četnostech – test dobré shody, Fisherův exaktní test

V této lekci se naučíte testovat výsledky výzkumů, jehož data jsou nominální, čili se naučíme přehled metod určených k testování četností.

Data – zde, část dat si vytvoříme sami

R soubor – zde (aktualizováno a doplněno 15.112018)

Video 14 – Chí-kvadrát test 

Video 15 – Fisherův exaktní test

Video 16 – Kolmogorov-Smirnov test

Video 17 – Grafická prezentace nominálních dat

Co jsme se naučili:

  • počítat chí-kvadrát test dobré shody (jeden výběr oproti teoretickému rozdělení)
  • vytvořit kontingenční tabulku
  • vypočítat dvouvýběrový chí-kvadrát test
  • vypočítat Fisherův exaktní test
  • vypočítat Kolmogorov-Smirnov test
  • vytvořit z četnostních dat koláčový graf
  • doplnit k grafu legendu
  • vytvořit mozaikový graf z četností dvou kategoriálních proměnných

Poznané funkce:

  • table() – vytvoří kontingenční tabulku
  • chisq.test() – vypočítá chí-kvadrát testy
  • fisher.test() – vypočítá Fisherův exaktní test
  • ks.test() – vypočítá Kolmogorov-Smirnov test
  • pie() – vytvoří koláčový graf
  • legend() – vytvoří “legendu” ke grafu
  • mosaicplot() – vytvoří mozaikový graf

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Ostrorep – F(barva, trny)/M(přítomnost)”. Převeďte ji do R. Otestujte chí kvadrát testem, jestli se existuje vliv barvy samice na ochotu samců na páření. Poznámka: Aby šel výpočet v R udělat budete muset proměnné zadat jako as.factor.
  • Náhodným výběrem na zaplevelené zahradě jsme sebrali 8 rostlin Anagalis arvensis (drchnička rolní) – 7 rostlin mělo květy červené a jedna modré. Použijte Fisherova exaktního testu k rozhodnutí, jestli je poměr zastoupení červených a modrých květů 1:1.
  • Věkové zastoupení skotu v ČR v roce 2017 bylo: 193699 ks do 6 měsíců, 212989 ks ve věku 6-12 měsíců, 299249 ks ve věku 1-2 roky a 660426 ks ve věku nad 2 roky. Ve stejném období bylo v Jihočeském kraji v těchto kategoriích 27496 ks, 34433 ks, 43953 ks a 55362 ks. Použijte Kolmogorov-Smirnov testu k testování potenciální rozdílu mezi počty kusů skotu v Jihočeském kraji a ČR.

Cvičení 9

Úkol pro úvod 9. cvičení je zde

8. Lekce: Mann-Whitney test a Wilcoxon test (= testy pro dva výběry s ordinálními daty)

V této lekci se naučíte testovat výsledky výzkumů, jehož data jsou ordinální. Tyto testy jsou založeny na testování diferencí v pořadí.

Data – zde, část dat si vytvoříme sami

R soubor – zde

Video 18 – Kompletní 8. lekce

Co jsme se naučili:

  • testovat hypotézy Mann-Whitney testem
  • testovat hypotézy Wilcoxon testem

Poznané funkce:

  • wilcox.test() – vypočítá M-W test a W test

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Tělesná teplota (ráno, v poledne, večer)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte Wilcoxonovým testem, jestli se liší teplota jedince ráno a večer.
  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte Mann-Whitney testem rozdíl v průměrech délky mezi samci a samicemi (1= samci, 2= samice), použijte oboustranný test a variantu pro rovnost rozptylů.

9. Lekce: One-way ANOVA, RMANOVA, Kruskal-Wallis test, Friedmanův test (= testy pro více výběrů a jeden faktor)

Tato obsáhlá lekce bude věnována problematice testování hypotéz, kde data obsahují více výběrů než dva a omezíme se na test jednoho faktoru (v případě “within” efektu to budou v podstatě faktory dva). Naučíme se používat větší množství packages a budeme i nuceni používat zadání a příkazů, kterým se věnujeme detailněji až v navazujícím kurzu.

Data – zde

R soubor – zde

Video 19: Kompletní 9. lekce

Co jsme se naučili:

  • testovat homogenitu variancí Leveneovým testem
  • testovat data, kdy máme k dispozici více nezávislých výběrů a vyvážený počet měření
  • používat Tukeyho a Dunnettův post-hoc testy
  • testovat více závislých výběrů
  • vše výše uvedené v parametrické i neparametrické variantě
  • čistě technicky jsme se naučili zadávat náhodné efekty a testovat nevyvážené modely

Poznané funkce:

  • leveneTest() – testuje homogenitu variancí (package car)
  • aov() – vypočítá test ANOVA pro vyvážená data (jedno i vícefaktorová ANOVA, fixed in random efekt)
  • summary() – vypíše výsledky uložených testů
  • TukeyHSD() – vypočítá Tukey HSD post-hoc test pro výsledky aov()
  • ggline() – vykreslí komplikované grafy z výsledků funkcí testů (package ggpubr)
  • glht() – umožňuje vypočítat různé druhy pos-hoc testů z výsledků funkcí testů (package multcomp)
  • cld() – získá informace z příkazu glht() a umožní jejich tisk do grafu (package multcomp)
  • lmer() – lineární model (my jsme jej použili jako ANOVA model) pro výpočet ANOVA na nevyvážených datech (package lme4)
  • anova() – vypočítá ANOVA z výsledku příkazu lmer() a dalších modelů
  • kruskal.test() – vypočítá Kruskal-Wallis test
  • pairwise.wilcox.test() – vypočítá post-hoc test pro Kruskal-Wallis test
  • posthoc.kruskal.nemenyi.test() – vypočítá Nemeyi post-hoc test pro Kruskal-Wallis test (package PMCMR)
  • friedman.test() – vypočítá Friedmanův test
  • posthoc.friedman.nemenyi.test() – vypočítá Nemeyi post-hoc test pro Friedmanův test (package PMCMR)

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Výška rostliny/(substrát, poloha)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte pomocí One-way ANOVA a Mann-Whitney testem s příslušnými post-hoc testy, jestli se liší výška rostliny podle typu substrátu (polohu nebereme v potaz).
  • V postu Data si stáhněte XLS tabulku označenou jako “Tělesná teplota (ráno, v poledne, večer)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte pomocí RMANOVA a Friedmanovým testem s příslušnými post-hoc testy, jestli se liší teplota jedince ráno, v poledne a večer.

Cvičení 11

Úkol pro úvod 11. cvičení je zde

10. Lekce: Kovariance a korelace

Tato a následující lekce už nejsou věnovány testováním rozdílů mezi výběry, ale souvislostem mezi proměnnými. V této lekci se naučíte pracovat se souvislostmi proměnným na základě kovariancí a korelačních koeficientů.

Data – zde

R soubor – zde

Video 20: Kompletní 10. lekce

Co jsme se naučili:

  • vypočítat kovariační koeficienty a kovariační matici
  • vypočítat korelační koeficienty a korelační matici – Pearson, Spearman, Kendal
  • vizualizovat korelační matici
  • vypočítat parciální korelační koeficienty

Poznané funkce:

  • cov() – vypočítá kovariační koeficienty zadaných proměnných
  • cor() – vypočítá korelační koeficienty zadaných proměnných
  • cor.mtest() – vypočítá hodnotu p pro korelační koeficient (package corrplot)
  • corrplot() – vizualizace korelační matice (package corrplot)
  • pcor() – vypočítá parciální korelační koeficienty a jejich hodnotu p (package ppcor)

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Vypočítejte korelační matici Pearsonových korelačních koeficientů délky, výšky a šířky zvlášť pro samce (=1) a samice (=2). Určete hodnotu p pro každý korelační koeficient. Vypočítejte i kovariační matici.
  • V postu Data si stáhněte XLS tabulku označenou jako “Ostrorep – F(šířka, hmotnost)/M(biomasa)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Vypočítejte korelační matici Spearmanových korelačních koeficientů všech tří proměnných.

11. Lekce: Lineární regrese

V poslední lekci základního kurzu se v R Studiu naučíme ovládat lineární regresi jak jednoduchou i mnohonásobnou. Podíváme se tedy na případ, kdy na straně vysvětlujících proměnných je jejich větší počet a všechny použité proměnné jsou poměrové s normálním rozdělením – k dalším podmínkám viz text zde.

Data – zde

R soubor – zde

Video 21: Jednoduchá lineární regrese

Video 22: Mnohonásobná lineární regrese

Co jsme se naučili:

  • vypočítat jednoduchou lineární regresi
  • regresní diagnostiku na grafech reziduálů
  • vypočítat mnohonásobnou lineární regresi
  • rozhodnout o rozdílech dvou kompetičních modelů
  • vyčítat stepwise regresi

Poznané funkce:

  • lm() – vestavěná funkce R pro výpočet lineárního modelu
  • abline() – vykreslí regresní přímku do xy grafu

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Ostrorep – F(šířka, hmotnost)/M(biomasa)”. Převeďte ji do R. Existuje závislost množství samců ostrorepa zavěšených při páření hmotnosti samice?
  • V postu Data si stáhněte XLS tabulku označenou jako “Regrese-vejce”. Převeďte ji do R. Identifikujte závislost objemu vajec na vzdálenosti hnízda od volné hladiny a od nejbližšího hnízda – vyberte nejlepší model.

Po této lekci je 2. část zápočtového testu!!!!!!!!

Co se v něm může objevit?

  • Chí kvadrát test, Fisherův exaktní test, Kolmogorov-Smirnov test
  • Mann-Whitney test, Wilcoxon test
  • One-way ANOVA, Tukey HSD post-hoc test, Dunnett post-hoc test, Kruskal-Wallis test s post-hoc testem, Fiedmanův test s post-hoc testem
  • kovariance, korelace (Pearson, Spearman)
  • jednoduchá lineární regrese, mnohonásobná lineární regrese

Data budou zadána v R scriptu pomocí funkcí c(), pokud je k výpočtu třeba tabulka dat, tak součástí zadání jsou i příkazy na vytvoření matice pomocí cbind() a tabulky dat as.data.frame(), popřípadě zadání faktoru as.factor(). Tedy tyto příkazy si nebudete tvořit sami, ale budete je mít už od nás napsané – jen je budete muset klávesou CTRL+Enter provést. Toto opatření je nutné z důvodu zjištěné nepřímé funkcionality instalace packages na počítačích v ZR-Z12 – problém, který jsme zažili po prvním spuštění RStudia se bude při každé aktualizaci opakovat a nemůžeme riskovat, že se to stane při zápočtu. Kdo by chtěl výpočty dělat v MS Excel, tak si bude muset čísla do sešitu překopírovat/přepsat.

Při 2. části zápočtu budete mít k dispozici kromě souboru s daty i soubor s prvními šesti lekcemi R (zde) a druhu část s dalšími pěti lekcemi (zde).

Další ovládací prvky a statistické metody v R**

Nic z následujícího není předmětem výuky, ni zápočtu, ni zkoušky. Jde jen o materiály pro zájemce, kteří potřebují řešit složitější věci.

AdvancedR1: Vytvoření dummy variables z faktoru

  • syntaxe pro vytvoření nové tabulky z faktoru nástrojem package caret a následné spojení s původní tabulkou funkcí cbind()

R script

AdvancedR2: Import všech listů z sešitu MS Excel

  • skript pro import všech listů ze sešitu MS Excel do objektu list a jejich převod na objekt data.frame a pojmenování z názvu listu
  sheets <- readxl::excel_sheets("D:/cesta/soubor.xlsx")
  data1 <- lapply(sheets, function(X) readxl::read_excel("D:/cesta/soubor.xlsx", sheet = X))
  data1 <- lapply(data1, as.data.frame)  # pro některé příkazy je NUTNÉ mít data.frame!!!!!
  names(data1) <- sheets # pojmenování jednotlivých tabulek názvy listů 

Advanced R3: Z-test a jeho využití při testování rozdílů v poměrech

  • prop.test() – z-test
  • prop.trent.test() – test trendu v poměrech
  • p.adjust() – upravéní hodnoty p v multiple comparison
### Z-test ###

# Liší se klíčivost semen po 1, 2 a 3 letech skladování? Každý rok byl k dispozici jiný počet semen


# http://www.sthda.com/english/wiki/two-proportions-z-test-in-r
# https://sphweb.bumc.bu.edu/otlt/MPH-Modules/BS/R/R6_CategoricalDataAnalysis/R6_CategoricalDataAnalysis6.html

# test rozdílů v poměrech
klici <- c(400,300,100)
semena <- c(500,400,300)
res1 <- prop.test(klici, semena)
res1

# post-hoc porovnani
# https://stats.stackexchange.com/questions/116323/compare-proportions-more-than-two-groups
# používá se funkce p.adjust()
prop.test(x = c(400, 100), n = c(500, 300))
prop.test(x = c(400, 300), n = c(500, 400))
prop.test(x = c(300, 100), n = c(400, 300))
ps <- c(2.2e-16,2.2e-16,0.08687)
lab <- c("1vs3","2vs3","1vs2")
tab <- data.frame(lab, ps)

?p.adjust

tab$Bonferroni <- p.adjust(tab$ps, method = "bonferroni")


# test vazby v postupu kliceni = test trendu, dá se požít na vývoj klíčení za 
# více než dva roky
res2 <- prop.trend.test(klici, semena)
res2

Charakteristiky četností

Četnost znamená počet výskytu daného jevu (např. samců), hodnoty (např. kategorie “velmi mnoho” nebo teploty 0°C) nebo intervalu hodnot (např. pH 3,5-4) v souboru dat. Četnosti mohou být vyjádřeny dvěma způsoby: (1) absolutně = počet hodnot v každé kategorii (výstupem takovéhoto zpracování je obvykle tabulka), (2) relativně = počet hodnot v každé kategorii je vydělen celkovým počtem měření, tedy celkový součet je 1 nebo 100, pokud každý podíl vynásobíte stem – jde o procenta (těchto výstupů se volí pro konstrukci poměrových grafů – koláčové, skládané sloupcové nebo pruhové).

Základním nástrojem pro četnostní zpracování nominálních, ordinálních a dopředu kategorizovaných intervalových či poměrových dat je kontingenční tabulka. Ty mohou být jednorozměrné = pro jednu proměnnou (tabule) nebo dvou a více rozměrných = pro dvě nebo více proměnných (tabule) – v základním kurzu se naučíme hodnotit jen dvourozměrné tabulky.

Princip tvorby dvourozměrné kontingenční tabulky.

Vícerozměrná kontingenční tabulka.

Nejčastěji používáme dvě proměnné a rozdíly v nich pak testujeme pomocí testu dobré shody. Video základní práce s nominálními a ordinálními daty.

Práce s nominálními a ordinálními daty v kontingenční tabulce.

Pokud chceme stejným způsobem zpracovat intervalová a poměrová data, je z nich třeba nejprve vytvořit kategorie – viz tabule.

Kategorizace poměrových proměnných.

Možností jak toho v MS Excel dosáhnout je více. Nejjednodušeji ale zároveň nejpracnější je ruční nahrazování (takto to dělat nebudeme). Nejrychlejší postup je přes funkci ČETNOSTI (stačí si do volného sloupce stanovit hranice intervalů a MS Excel Vám vyhodí počty měření v jednotlivých intervalech). Druhou, komplikovanější možností je použití funkce COUNTIF, což je asi nejgeniálnější funkce MS Excel, která toho umí strašně mnoho a budete-li v budoucny někdy řešit komplikovanější úlohy, pak se bez ní neobejdete, nicméně zde by to znamenalo počítat četnosti postupně pro jednotlivé kategorie (funkce ČETNOSTI je v tomto případě elegantnější). Postup je zdlouhavý a my jej dělat nebudeme, pokud se to chcete naučit tak tady je externí videonávod a to, co potřebujete vědět, je ve stopáži 27:50 až 39:20. Obě výše uvedené funkce Vám však vrátí jednorozměrnou kontingenční tabulku, což bude často problém pro Vaše další výpočty. Vy budete nejčastěji chtít přiřadit kategorii ke konkrétnímu měření. Toho lze dosáhnout funkcí, se kterou jsme se seznámili v databázích, a to SVYHLEDAT, kde jako typ zadáte hodnotu 1 (jinak je postup stejný jako u spojování tabulek, POZOR!!! zadává se spodní hranice intervalu) – video.

Použití funkce SVYHLEDAT pro vytvoření kategorií.

Kontingenční tabulka má pro poměrová data ještě jednu výhodu. Jste pomocí ní schopni získávat velmi rychle charakteristiky polohy i variability pro Vámi zvolené kategorie – model využití je na videu.

Kategorizované charakteristiky polohy a variability v kontingenční tabulce.

Práce s tabulkami v R

Už v práci s tabulkami v MS Excel je jasné, že musíme dodržovat strukturu “databázové” tabulky. Jedině tak získáme kontingenční tabulku MS Excel a budeme schopni pracovat s tabulkami v R. V R to není zdaleka tak jednoduché, jako MS Excel, takže pro tvorbu tabulek, které budou vstupovat dále do analýz budete dělat v MS Excel, ale úpravu a tvorbu si chtě-nechtě musíme ukázat i v R – k tomu je určena naše  3. Lekce v R.

Histogram – grafické vyjádření četností

Druhým nástrojem pro posouzení četností je histogram. Jedná se o graf četností. Obvykle na ose x jsou kategorie a na osu y jsou vynášeny hodnoty četností. Stejně jako u kontingenčních tabulek, tyto četnosti mohou být vyjádřeny absolutně nebo relativní stupnici. Lze do jednoho histogramu vynést více proměnných (měřených na stejné stupnici a kategorizovaných do stejných intervalů či kategorií). Samozřejmě, že když se jedná o ordinální nebo kategorizovaná poměrová data, tak na ose x jsou kategorie řazeny obvykle vzestupně. Dalším způsobem vyjádření četností histogramem je tzv. kumulativní histogram. V něm jsou postupně načítány hodnoty předchozích k následujícím kategoriím.

Histogramů se také často používá, když chceme rychle okometricky posoudit, jaké rozložení naše hodnoty mají. K tomu se dostaneme u náhodných veličin.

Histogram v R

Vytvoření histogramu v R se děje pomocí funkce hist() nebo histogram() v package lessR.

Histogram v MS Excel**

Vytvoření histogramu v MS Excel není v základu možné. Lze k jeho vytvoření použít výše zmíněné funkcí četnosti COUNTIF. Ale optimální je využití kategorizace provedené přes SVYHLEDAT. Užití si ukažme na pokračování příkladu ke kategorizaci poměrové proměnné – video.

Vytvoření histogramu v MS Excel.

Další možností je využití vytvoření histogramu přes kartu Vložit – histogram nebo nástroje Histogram na kartě Analýza dat, ale k ní se ale dostaneme až časem.

Vytvoření kumulativního histogramu si ukážeme pokračováním z předchozího příkladu, které je na videu. Kumulativní relativní četnosti budeme potřebovat při výpočtech nutných k posouzení normality dat.

Vytvoření histogramu kumulativních četností.

Charakteristiky variability

Charakteristiky polohy nás informují o “průměrné” charakteristice souboru dat. Získaná data však obvykle obsahují i pozorování, která jsou od hodnoty “průměru” značně odlišná. Charakteristiky vnitřní odlišnosti dat jsou tak stejně důležité. K základním, definovaným na intervalových datech patří:

  • rozsah, což je oblast dat mezi hodnotami minimum (MIN) a maximum (MAX)
  • rozptyl neboli variance je průměrná hodnota čtverce (POWER) odchylky měření od průměru a počítá se jinak pro základní soubor (VAR.P) a výběrový soubor (VAR.S)
  • směrodatná odchylka je druhou odmocninou z rozptylu; jelikož se liší výpočet rozptylu pro základní a výběrový soubor, má MS Excel samostatné funkce pro výpočet směrodatné odchylky pro základní soubor (SMODCH.P) a výběrový soubor (SMODCH.VÝBĚR.S), pokud uvádíte průměr, pak byste k němu měli uvést i hodnotu jeho směrodatné odchylky, neboť ta je v jednotkách průměru
  • variační koeficient je podíl směrodatné odchylky a hodnoty průměru a používá se v případě, když chcete porovnat variabilitu dvou proměnných, které mají různé jednotky

Variability ordinální dat lze posoudit pomocí kvantilů odvozených od mediánu:

  • kvartily (QUARTIL) jsou odvozeny od mediánu a jsou to hodnoty, které oddělují nikoliv poloviny měření (jako je tomu o mediánu; medián = hranice 2. kvartilu), ale čtvrtiny
  • percentily (PERCENTIL) jsou taktéž odvozeninou od mediánu, ale dělí soubor na setiny pozorování, stejně tak se používají decily

Oblíbenou společnou grafickou vizualizací charakteristik polohy a variability je krabicový graf (box-plot). Podle typu dat zobrazuje různé z výše uvedených hodnot.

Přehled základnách typů box-plotů.

Krabicový graf v R

My využijeme situace, že MS Excel automatickou tvorbu klasického krabicového grafu v nabídce nemá, a naučíme se ovládat R (1. Lekce).

Krabicový graf v MS Excel**

MS Excel jednoduše sám “vyrobit”  krabicový graf neumí a je nutné si data sama/sám připravit. Nejjednodušší případ box-plotu, který zobrazuje bodem hodnotu mediánu, “krabicí” 1. a 3. kvartil a “vousy” minimální a maximální hodnotu. V tomto případě vycházíme ze sloupcového grafu, kde boxy jsou de facto částí sloupce podle 1. 2. a 3. kvartilu a “vousy” jsou konstruovány jako chybové úsečky. Z tohoto je zřejmé, že pro konstrukci takového box-plotu potřebujeme umět z dat vypočítat charakteristiky polohy a umět pracovat s grafy MS Excel. Výpočet potřebných údajů je na videu, stejně jako tvorba vlastního box-plotu na druhé části videa.

Výpočet potřebných údajů pro sestavení box-plotu (nějak mi tam ujel medián u veg3, ale to pro naše potřeby nevadí).

Vytvoření box-plotu ze sloupcového skládaného grafu.

Doma si můžete instalovat doplněk Real Statistics, kde je na tento základní případ nástroj BoxPlot – schopen je pracovat i se zápornými daty. “Pravé” box-ploty mohou označovat různé hodnoty (tabule) – k tomu ale budete muset využít jiný software než je MS Excel.

Charakteristiky polohy

  • aritmetický průměr (PRŮMĚR), který je definován na intervalové stupnici, se vypočítá jako podíl součtu měřených hodnot (SUMA) a počtu měření (POČET)
  • medián (MEDIAN), který je definován na ordinální stupnici, je hodnotou, která dělí data do dvou skupin o stejném počtu měření
  • modus (MODE), který je definován na nominální stupnici, je nejčastěji se vyskytující hodnotou; modů může být v souboru více

MS Excel umí i některé další funkce, např:

  • TRIMMEAN, který počítá průměr po odečtení stanoveného procenta maximálních a minimálních měřených hodnot, využít jej tedy můžete, když předpokládáte, že Vaše měření obsahuje odlehlé hodnoty (tedy takové, které na většinu Vámi změřených dat nesedí a předpokládáte, že vznikly souhrou náhod, chybou přístroje, Vaší nepozorností, atp. – k detailnějšímu zamyšlení o odlehlých hodnotách viz lineární regrese).

Normální rozdělení

Parametrické metody hodnocení souborů dat předpokládají, mimo jiné, normální rozložení zpracovávaných dat. Použít je můžeme jen když máme poměrová (intervalová) data a dostatečný počet měření (u nízkých počtů měření obvykle nebudeme moci potvrdit normální rozdělení). V tomto měření by pak, vulgárně řečeno, měl být nízký počet velmi nízkých i velmi vysokých měřených hodnot. Četnosti měření by od velmi nízkých a velmi vysokých měly měly postupně růst k hodnotě průměru, která je velmi blízká mediánu a modu.

Toto rozdělení je základním rozdělením dat, nazývá se Gaussovým a má zvonovitý charakter. Platí, že hustota pravděpodobnosti je u něj symetrická. K výpočtu hustoty se používá Ludolfova čísla, základu přirozeného logaritmu a parametrů – průměru a rozptylu – průměr posouvá křivku po ose x a rozptyl udává “výšku” Gaussovy křivky.

Standardizované normální rozdělení**

Standardizace je postup, jímž získáváme novou proměnnou, která je odvozena z měřených hodnot původní proměnné, ale její (tedy té nové proměnné založené na datech původní proměnné) průměr je 0 a rozptyl se směrodatnou odchylkou jsou 1. Výpočet standardizace provedeme tak, že od každé měřené hodnoty proměnné odečteme průměrnou hodnotu všech měření proměnné a tento rozdíl vydělíme směrodatnou odchylku průměru měřené proměnné (detailněji v navazujícím kurzu).

Posouzení normality

  1. Okometrické posouzení histogramu, v R i MS Excel jsme již histogram řešili (viz dříve).
  2. Okometrické posouzení Q-Q grafu. Na ose x je teoretické rozdělení mých dat a na ose y “reálné” rozdělení mých dat, jednotlivá měření jsou pak vynesena jako body kombinace reálné a očekávané hodnoty měření – pokud by se jednalo o normální rozdělení, pak by všechny body měly ležet na diagonále grafu – čím větší odchylky od diagonály, tím větší odchylka od normality. V R se používá příkazů qqnorm() a qqline () – více v páté lekci R. Tvorba Q-Q grafu v MS Excel** je na videu.

Návod na vytvoření Q-Q grafu v MS Excel.

3. Posouzení šikmosti a špičatosti rozdělení, jejichž vysvětlení je uvedeno na tabuli. Za špičatá, respektive šikmá rozdělení, lze považována taková, jejichž hodnoty jsou nižší než -2 nebo vyšší než +2. Výpočet v R je v páté lekci R.

Špičatost a šikmost v porovnání s normálním rozdělením.

  • Šikmost (SKEW) se vypočítá jako podíl třetího centrálního momentu (= třetí mocniny rozdílu všech měřených hodnot a průměru) a třetí mocniny směrodatné odchylky, normální rozdělení má hodnotu 0, rozdíl mé hodnoty od nulové lze testovat a kritické hodnoty jsou pro různý počet n tabelovány např. zde,
  • Špičatost (KURT) se vypočítá jako podíl čtvrtého centrálního momentu a čtvrté mocniny rozptylu od níž odečítáme hodnotu 3, pokud je hodnoty větší než 0, pak je rozdělení našich dat špičaté, jinak je ploché, opět lze hodnotu špičatosti testovat, kritické hodnoty zde.

4. Test normality rozdělení. Normalitu rozdělení lze i testovat. V praxi se používá mnoho testů – nejčastěji chí-kvadrát (který si ukážeme později), Kolmogorov-Smirnov test (pro nějž máte dobrovolné návodné video v MS Excel níže) a Shapiro–Wilk test – jež se naučíme v R v páté lekci R.

 

Pro MS Excel** je nejvýhodnější použít Kolmogorov-Smirnov test, což je neparametrický test, který je obdobou chí-kvadrát testu, více v neparametrických metodách. Na tomto konkrétním místě nám jde o techniku výpočtu – video.

Kolmogorov-Smirnov test použitý k testu normality dat.

Doma můžete použít RealStatistics s těmito moduly.

Ve Vaší praxi budete tímto rozdělením aproximovat i diskrétní data, podmínkou použití ale bude, že k dispozici budete mít opravdu mnoho měřených hodnot.

Testování hypotéz

Podstata statistického testování hypotéz tkví ve filozofiích karteziánského racionalismu (důraz na myšlení poznávacího subjektu = schopnosti rozumového posouzení empiricky zjištěného), pozitivismu (přesvědčení o objektivním poznání pozitivně existujícího daného kumulací poznání) a kritického racionalismu (kritického posouzení zjištěného – nutnost tvorby hypotéz, jejich testování na falzifikatelnost) , tedy toho, co je označováno za “vědecký” přístup. Z toho posledního plyne tvrzení, že pravdivé hypotézy jsou pouze ty, které nelze falzifikovat – hypotézu nelze potvrdit, ale snažíme se o její vyvrácení, pokud ji vyvrátíme, není pravdivá, pokud ji nelze vyvrátit chováme se k ní jako k pravdivé (. . . dokud nebude vyvrácena).

Statistické hypotézy tedy vycházejí z předpokladu, že hypotézu nelze na základě dat dokázat, nicméně ji lze vyvrátit. Proto se formulují hypotézy, které se označují H0, tedy nulové hypotézy, které jsou obvykle opakem toho, co se snažíme prokázat!!!!!!!! Proto H0 obvykle zní “není rozdíl mezi skupinou X a skupinou Y”. Pokud jsme schopni na základě dat nulovou hypotézu vyvrátit, mohu ji zamítnout a mohu přijmout ji negující hypotézu (alternativní, která se obvykle značí HA nebo H1).

Způsob uvažovaní při testování hypotéz a faktorů ovlivňujících jejich výstup si ukážeme na příkladu dvouvýběrového t-testu, ke kterému se dostaneme v konkrétní podobě za chvíli.

Přijmutí nebo zamítnutí nulové hypotézy vychází z porovnání vypočtené hodnoty statistické metody (což je nějaká funkce, vzorec, do kterého vstupují měřená data) a kritické hodnoty dané metody (hodnota je tabelována = najdu ji v tabulkách, statistické software ji znají a rovnou reportují). Princip je shrnut na tabuli.

Pravděpodobnostní podstata testu hypotézy.

Je-li hodnota vypočtená z našich dat menší než kritická, pak nulovou hypotézu nemohu zamítnout a opačně (toto neplatí vždy – výjimkou jsou např. Mann-Whitney a Wilcoxon, jejichž funkce mají obrácený charakter – tabule).

U Mann-Whitney a Wilcoxon testů je rozhodování “opačné” než u t-testu.

Kritická hodnota je závislá na pravděpodobnosti, kterou jsem ochoten přijmout pro platnost nulové hypotézy a odpovídá hodnotě dané pravděpodobnosti pod křivkou funkce hustoty rozdělení pravděpodobnosti (celkový obsah pod křivkou je 100% a já říkám, co je nepravděpodobné – nejčastěji 5 %, 1 %, nebo 0,1 %, pravděpodobnost platnosti H0 je tedy 95%, 99%, resp. 99,9%, nejčastěji se tato hodnota uvádí jako hladina významnosti, která se značí p a uvádí se v desetinách, tedy 0,05, 0,01 a 0,001). Čím je tato hodnota nižší, tím podstupuji větší riziko, že zamítnu skutečnost, která je pravdou (= chyba 1. druhu), na druhou stranu tím snižuji pravděpodobnost, že bych zamítl hypotézu, která by nebyla pravdou (= chyba 2. druhu). Samozřejmě to platí i opačně.

POZOR – nestanovuji konkrétní kritickou hodnotu, ale pravděpodobnost – od této pravděpodobnosti se odvíjí konkrétní kritická hodnota. Je to proto, že tvar křivky se mění s počty stupňů volnosti a mohu testovat oboustrannou i jednostrannou rovnost – viz dále.

POZOR2 – statistické software obvykle počítají konkrétní hodnotu p pro (z Vašich dat vypočítanou) hodnotu testu, tedy kritickou hodnotu nehledáte a jen porovnáváte, jeli konkrétní hodnota p větší nebo menší než Vámi stanovená hodnota p. Je-li mnou stanovená hodnota p větší než spočítaná hodnota p, pak H0 zamítám.

Kritická hodnota statistické metody je tedy závislá na počtu stupňů volnosti. Ty se odvíjejí od počtu měření a v mnoha testech i od počtu kategorií, pro něž se test provádí. U našeho modelového testu platí, že kolem nuly je křivka vyšší a celkově je vysoká část užší při vyšších hodnotách počtu stupňů volnosti, proto pak je kritická hodnota pro stejnou hladinu významnosti v absolutní hodnotě menší číslo než u nižšího počtu stupňů volnosti – v rámcích statistiky je to logické – mám více měření, jsem blíže základnímu souboru a tedy data jsou blíže “pravdě”. Vliv počtu stupňů volnosti je znázorněn na tabuli.

Vliv počtu stupňů volnosti.

Existují i případy, kdy nás nezajímá test shody dvou výběrů, ale H0 je postavena na nerovnosti (typicky mám dva výběry a vím, že jeden by měl dosahovat vyšších hodnot, pak nemá smysl testovat rovnost, ale bude nás zajímat jen jedna strana). Kritická hodnota je pak jiná při stejném počtu stupňů volnosti a hladině významnosti – vysvětlení, proč tomu tak je, je modrou barvou na tabuli.

Jednostranný test vs. oboustranný test.

MKV1 – požadavky

K zápočtu

Získání zápočtu je podmíněno ziskem v součtu alespoň 60 % bodů ze dvou zápočtových testů (platí pro PS; KS píše test jediný) a účastí na cvičení (povoleny jsou dvě absence; platí pro PS).

1. “Midterm exam”

Probíhá v polovině semestru – pokud nedojde k nějakému odpadnutí výuky, tak v 7. týdnu semestru, vždy po před neparametrickými testy. Předmětem tohoto testu je praktická aplikace látky probírané na 1.- 6. cvičení, úkoly můžete řešit v R nebo MS Excel:

  • výpočty charakteristik polohy a variability (průměr, medián, modus, rozptyl, směrodatná odchylka, kvartily, minimum, maximum, variační koeficient)
  • posouzení normality dat (šikmost, špičatost, Shapiro-Wilks test v R nebo Kolmogorov-Smirnov test v MS Excel)
  • testování hypotéz – t-testy, F test (výpočet jednovýběrového t-testu, párového t-testu, dvouvýběrového t-testu, F-testu)

Zadáno je vždy 6 úloh. Vybrané výsledky zapisujete do tištěného zápočtového testu. Na vypracování testu je k dispozici 75 minut.

Pravidla pro vypracování:

Pracujete výhradně s daty předanými pedagogem.
Při vypracovávání můžete používat Help R a MS Excel. Během vypracovávání zápočtu je zakázáno prohlížení jiných stránek než odkazů z Help obou programů.

2. zápočtový test

Probíhá v zápočtovém týdnu. Předmětem také tohoto testu je ověření schopnosti řešit problémy kvantitativního zpracování dat v prostředích R neboMS Excel.
Zadány jsou vždy 4 úlohy. Vybrané výsledky zapisujete do tištěného zápočtového testu. Na vypracování testu je k dispozici 60 minut.
2. zápočtový test je zaměřen na schopnost řešit úkoly druhé části semestru:

  • chí-kvadrát test,
  • Fisherův exaktní test,
  • Mann-Whitney test,
  • Wilcoxonův test,
  • jednofaktorová ANOVA,
  • Kruskal-Wallisův test,
  • výpočet kovariance, korelace a regrese

Pravidla pro vypracování:

Pracujete výhradně s daty předanými pedagogem.
Při vypracovávání můžete používat Help R a MS Excel. Během vypracovávání zápočtu je zakázáno prohlížení jiných stránek než odkazů z Help obou programů.
Pokud jste z důvodu absence neabsolvovali “midterm exam”, pak jej absolvujete společně s 2. zápočtovým testem v zápočtovém týdnu.

Pokud v součtu “midterm exam” a 2. zápočtového testu nezískáte minimálně 60 %, musíte absolvovat oba testy společně v opravném termínu – opravné termíny máte dva.

Jelikož se ukázalo jako nemožné provést “midterm exam” pro kombinované studium, bude kombinované studium psát oba testy společně v jednom termínu, na kterém se dohodneme na první konzultaci!!!!!!!!!

Ke zkoušce

Absolvování zkušebního testu alespoň na 60 %. Zkušební test je zaměřen na teoretické znalosti, je v něm položeno 14 otázek. 10 otázek je vždy se čtyřmi možnostmi odpovědí (právě jedna z nich je správná) – za správnou odpověď se získává bod, za chybné odpovědi se body neodečítají, 4 otázky jsou s volnou odpovědí, za správnou odpověď se uděluje bod. Na povinnou písemnou část zkoušky navazuje volitelná část ústní. K absolvování zkoušky je třeba 8 bodů. Čas na vypracování je 25 minut.

Známkování:

8 bodů 3
9 bodů 2-
10 a 11 bodů 2
12 bodů 1-
13 a 14 bodů 1

Data

Pro box-plot (konduktivita, jaro, podzim)

Pohlaví/(délka, výška, šířka)

Podzemní voda na rašeliništích

Databáze 1 – spojení tabulek

Databáze 2 – informace o druhu k fotografii

Ostrorep – F(šířka, hmotnost)/M(biomasa)

Ostrorep – F(barva, trny)/M(přítomnost)

Tělesná teplota (ráno, v poledne, večer)

Výška rostliny/(substrát, poloha)

RMANOVA-pH

Rozšiřující kurz

ANOVA – druhy a prostředí
Vliv substrátu na druh
Regrese – vejce
Shluková analýza – druhy
Gradientová analýza – rašeliníky a faktory prostředí

. . . je doplňováno v průběhu semestru