Soubory pro R

Na tomto postu tvoříme učebnici práce v R.

Odkazy pro práci

Instalace

  • nejprve musíte stáhnout a nainstalovat R, kompletní přehled možností je zde
    • aktuální verze R pro Windows7-10 je zde (odkaz vede přímo na instalační soubor)
  • pak si musíte stáhnout a nainstalovat R Studio, kompletní přehled možností je zde
    • aktuální verze R Studia pro Windows7-10 je zde (odkaz vede přímo na instalační soubor)
  • případný problém s instalací packages je způsoben diakritikou v názvu Users
    • Problém je v tom, že instalaci packages provádí R Studio do adresářové struktury R/win-library/3.5, kterou vytváří sám ve složce Dokumenty, jež je pod složkou Users, mno a pokud se účet jmenuje třeba”uživatel”, tak si R Studio, jelikož v tomto případě nezná diakritiku, do adresářové struktury píše místo “ž” otazník a pak logicky není schopen tuto cestu najít, protože hledá v Users složku “u?ivatel”, která tam není, bo je tam “uživatel”. Pokud k tomu dojde, tak je třeba ručně zadat celou strukturu R/win-library/3.5 do Dokumentů v Průzkumníkovi nebo File Manageru, pak je třeba v R Studiu spustit instalaci prvního package oklikou přes Import Dataset – From Excel, který instaluje package automaticky a už sám vidí námi vytvořenou cestu – ten nainstaluje package readxl, mno a teprve pak už lze instalovat klasicky přes Packages-Install, protože software už ví, kde struktura adresářů R/win-library/3.5 je, a už je schopen do ní ukládat.
  • do setwd vkládejte na školních počítačích “C:/Users/uživatel/Documents/R”
  • cesta k souborům na flešce vy měla být “E:/R/nazevsouboru.xlsx”

Klávesové zkratky

R používá několik speciálních symbolů, jejichž klávesové zkratky je dobré znát nazpaměť:

  • CTRL + Enter: vykonávání příkazů ze zdrojového souboru skriptu do Console
  • Alt + 35: symbol dvojitého křížku pro vkládání poznámek ve skriptu
  • Alt + “dolní podtržítko”: vytvoření symbolu pro definování objektů, tedy “šipka”
  • Alt + 36: symbol dolaru pro výběry sloupců v datových tabulkách
  • Alt + 34: uvozovky
  • Alt + 126: vlnovka pro výběr skupin v proměnné

1. Lekce: Funkcionalita

Funkcionalitu si nejlépe ukážeme na konkrétním případě, kterým bude úkol na sestrojení box-plotu z dat uložených v MS Excel.

Data – zde

R soubor – zde

Co jsme se naučili:

  • otevřít a program a ukončit práci programu
  • poznali jsme aktivaci knihovny
  • uložení objektu
  • práce s nápovědou
  • práce s funkcemi
  • zadávání atributů a jejich funkčnost

Poznané funkce:

  • setwd() – nastavuje pracovní adresář
  • library() – aktivuje package
  • read_excel() – s cestou načte soubor s koncovkou XLS a XLSX
  • class() – identifikuje typ objektu
  • boxplot() – vytvoří z daného souboru box-plot podle nastavených atributů
  • help() – vypíše nápovědu k zadané funkci
  • c() – funkce pro definování vektorů
  • bxp() – funkce pro úpravu grafiky uloženého objektu z výstupu funkce boxplot()
  • (boxplot()) – vypíše číselné údaje z funkce boxplot()

 

2. Lekce: Práce s vektory

V této části se naučíme pracovat se základními objekty, kterými jsou vektory a od nich odvozené faktory (= kategoriálními vektory)

Data – budeme si je postupně sami tvořit v R

R soubor – zde

Co jsme se naučili:

  • operátory, a v rámci nich používat R jako kalkulačku
  • definování vektoru
  • spojování vektorů
  • mazání objektů
  • pojmenovávání prvků objektů
  • postup výběru prvků (jednoduché hranaté závorky)
  • funkce pro charakteristiky polohy a variability
  • že funkce lze kombinovat

Poznané funkce:

  • rm() – zmaže zadaný objekt
  • names() – pojmenovává prcky objektů (v pořadí prvků)
  • lenght() – vrací dálku vektoru
  • mean() – aritmetický průměr z číselného vektoru
  • median() – medián číselného vektoru
  • min() – minimální hodnota z číselného vektoru
  • max() – maximální hodnota z číselného vektoru
  • quantile() – kvantily z číselného vektoru
  • sd() – směrodatná odchylka z číselného vektoru
  • var() – rozptyl z číselného vektoru
  • sqrt() – druhá odmocnina z čísla

 

3. Lekce: Práce s “tabulkami”

Minule jsme se podívali na vektory, nyní se podíváme na práci s tabulkami, které budeme hodnotit častěji než samotné vektory/faktory

Data – budeme si je postupně sami tvořit v R

R soubor – zde

Co jsme se naučili:

  • poznali jsme typy “tabulek” = matice, pole, datové tabulky, seznamy
  • ručně spojením vektorů vytvořit výše uvedené datové typy
  • výběry položek z výše uvedených datových typů
  • vytvořit prázdnou matici, pole, datovou tabulku, seznam a nakrmit je daty
  • přidání sloupců (a jiných objektů) do již existujících matic, polí, datových tabulek, seznamů
  • spojení datových tabulek podle definice
  • konverzi mezi maticí a datovou tabulkou
  • výběry z matic, polí, datových tabulek, seznamů
  • seřazení hodnot vektoru
  • vytvořit seznam
  • tvořit dotazy na složité seznamové struktury

Poznané funkce:

  • cbind() – spojuje vektory do matice po sloupcích
  • rbind() – spojuje vektory do matice po řádcích
  • t() – transponuje matici
  • matrix() – vytvoří matici
  • colnames() – pojmenování sloupců
  • rownames() – pojmenování řádků
  • array() – vytvoří pole
  • data.frame() – vytvoří datovou tabulku
  • rep() – příkaz pro opakování hodnoty (často při vytváření vektorů)
  • merge() – spojení datových tabulek
  • is.factor() – dotaz jestli je vektor faktor
  • summary() – volání sumárních dat z datové tabulky
  • as.data.frame() – vytvoří z matice datovou tabulku
  • as.matrix() – vytvoří z datové tabulky matici
  • sort() – seřadí hodnoty vektoru
  • list() – vytvoří seznam

 

4. Lekce: Histogram a sloupcové grafy

Histogram i sloupcové grafy lze MS Excel vytvořit vcelku jednoduše, ale naučme se je tvořit i v R (když už nic, tak vypadají lépe).

Data – vytvoříme si je sami

R soubor – zde

Co jsme se naučili:

  • vytvořit histogram s absolutními relativními počty
  • upravit histogram graficky
  • využít data z funkce histogram po úpravě k tvorbě obecného grafu
  • vytvořit kumulativní histogram
  • vytvořit a upravit sloupcový graf

Poznané funkce:

  • hist() – vytvoří histogram
  • cumsum() – přepočítá vektor do své kumulativní podoby
  • (hist()) – vypíše hodnoty histogramu
  • plot() – vykreslí podle zadaných hodnot graf
  • histogram() – tvorba histogramu v package lessR
  • barplot() – vytvoří sloupcový graf

 

5. Lekce: Posouzení normality dat

Použití většiny parametrických metod je mimo jiné vázáno na předpoklad dat pocházejících ze základního souboru s normálním rozdělením. Tento předpoklad musíme posoudit.

Data – zde

R soubor – zde

Co jsme se naučili:

  • vytvořit q-q plot
  • vypočítat šikmost a špičatost
  • vypočítat Shapiro-Wilks test

Poznané funkce:

  • qqnorm() – vytvoří q-q graf
  • qqline() – do q-q grafu nakreslí přímku pro normální rozdělení
  • skewness() – vypočítá šikmost v package e1071
  • kurtosis() – vypočítá špičatost v package e1071
  • shapiro.test() – vypočítá Shapiro-Wilks test a vrátí hodnotu testu a jeho p

 

6. Lekce: T-testy a F-test

Při používání základních parametrických testů už poznáte, že naučit se R v R Studio byl dobrý nápad, protože vše jde snadno zadáním jediného příkazu.

Data – zde

R soubor – zde

Co jsme se naučili:

  • vypočítat jednotlivé t-testy (jednovýběrový, párový, dvouvýběrový, oboustranný, jednostranný, s/bez rovnosti rozptylů)
  • vypočítat F-test

Poznané funkce:

  • t.test() – vypočítá t-testy
  • var.test() – vypočítá F-test

 

Po této lekci je mid-term exam!!!!!!!!!

Charakteristiky četností

Charakteristiky četností

Četnost znamená počet výskytu daného jevu (např. samců), hodnoty (např. kategorie “velmi mnoho” nebo teploty 0°C) nebo intervalu hodnot (např. pH 3,5-4) v souboru dat. Četnosti mohou být vyjádřeny dvěma způsoby: (1) absolutně = počet hodnot v každé kategorii (výstupem takovéhoto zpracování je obvykle tabulka), (2) relativně = počet hodnot v každé kategorii je vydělen celkovým počtem měření, tedy celkový součet je 1 nebo 100, pokud každý podíl vynásobíte stem – jde o procenta (těchto výstupů se volí pro konstrukci poměrových grafů – koláčové, skládané sloupcové nebo pruhové).

Základním nástrojem pro četnostní zpracování nominálních, ordinálních a dopředu kategorizovaných intervalových či poměrových dat je kontingenční tabulka. Ty mohou být jednorozměrné = pro jednu proměnnou (tabule) nebo dvou a více rozměrných = pro dvě nebo více proměnných (tabule) – v základním kurzu se naučíme hodnotit jen dvourozměrné tabulky.

Princip tvorby dvourozměrné kontingenční tabulky.

Vícerozměrná kontingenční tabulka.

Nejčastěji používáme dvě proměnné a rozdíly v nich pak testujeme pomocí testu dobré shody. Video základní práce s nominálními a ordinálními daty.

Práce s nominálními a ordinálními daty v kontingenční tabulce.

Pokud chceme stejným způsobem zpracovat intervalová a poměrová data, je z nich třeba nejprve vytvořit kategorie – viz tabule.

Kategorizace poměrových proměnných.

Možností jak toho v MS Excel dosáhnout je více. Nejjednodušeji ale zároveň nejpracnější je ruční nahrazování (takto to dělat nebudeme). Nejrychlejší postup je přes funkci ČETNOSTI (stačí si do volného sloupce stanovit hranice intervalů a MS Excel Vám vyhodí počty měření v jednotlivých intervalech). Druhou, komplikovanější možností je použití funkce COUNTIF, což je asi nejgeniálnější funkce MS Excel, která toho umí strašně mnoho a budete-li v budoucny někdy řešit komplikovanější úlohy, pak se bez ní neobejdete, nicméně zde by to znamenalo počítat četnosti postupně pro jednotlivé kategorie (funkce ČETNOSTI je v tomto případě elegantnější). Postup je zdlouhavý a my jej dělat nebudeme, pokud se to chcete naučit tak tady je externí videonávod a to, co potřebujete vědět, je ve stopáži 27:50 až 39:20. Obě výše uvedené funkce Vám však vrátí jednorozměrnou kontingenční tabulku, což bude často problém pro Vaše další výpočty. Vy budete nejčastěji chtít přiřadit kategorii ke konkrétnímu měření. Toho lze dosáhnout funkcí, se kterou jsme se seznámili v databázích, a to SVYHLEDAT, kde jako typ zadáte hodnotu 1 (jinak je postup stejný jako u spojování tabulek, POZOR!!! zadává se spodní hranice intervalu) – video.

Použití funkce SVYHLEDAT pro vytvoření kategorií.

Kontingenční tabulka má pro poměrová data ještě jednu výhodu. Jste pomocí ní schopni získávat velmi rychle charakteristiky polohy i variability pro Vámi zvolené kategorie – model využití je na videu.

Kategorizované charakteristiky polohy a variability v kontingenční tabulce.

 

Práce s tabulkami v R

Už v práci s tabulkami v MS Excel je jasné, že musíme dodržovat strukturu “databázové” tabulky. Jedině tak získáme kontingenční tabulku MS Excel a budeme schopni pracovat s tabulkami v R. V R to není zdaleka tak jednoduché, jako MS Excel, takže pro tvorbu tabulek, které budou vstupovat dále do analýz budete dělat v MS Excel, ale úpravu a tvorbu si chtě-nechtě musíme ukázat i v R – k tomu je určena naše  3. Lekce v R.

Druhým nástrojem pro posouzení četností je histogram. Jedná se o graf četností. Obvykle na ose x jsou kategorie a na osu y jsou vynášeny hodnoty četností. Stejně jako u kontingenčních tabulek, tyto četnosti mohou být vyjádřeny absolutně nebo relativní stupnici. Lze do jednoho histogramu vynést více proměnných (měřených na stejné stupnici a kategorizovaných do stejných intervalů či kategorií). Samozřejmě, že když se jedná o ordinální nebo kategorizovaná poměrová data, tak na ose x jsou kategorie řazeny obvykle vzestupně. Dalším způsobem vyjádření četností histogramem je tzv. kumulativní histogram. V něm jsou postupně načítány hodnoty předchozích k následujícím kategoriím.

Histogramů se také často používá, když chceme rychle okometricky posoudit, jaké rozložení naše hodnoty mají. K tomu se dostaneme u náhodných veličin.

Histogram v R

Vytvoření histogramu v R se děje pomocí funkce hist() nebo histogram() v package lessR.

 

Histogram v MS Excel**

Vytvoření histogramu v MS Excel není v základu možné. Lze k jeho vytvoření použít výše zmíněné funkcí četnosti COUNTIF. Ale optimální je využití kategorizace provedené přes SVYHLEDAT. Užití si ukažme na pokračování příkladu ke kategorizaci poměrové proměnné – video.

Vytvoření histogramu v MS Excel.

Další možností je využití vytvoření histogramu přes kartu Vložit – histogram nebo nástroje Histogram na kartě Analýza dat, ale k ní se ale dostaneme až časem.

Vytvoření kumulativního histogramu si ukážeme pokračováním z předchozího příkladu, které je na videu. Kumulativní relativní četnosti budeme potřebovat při výpočtech nutných k posouzení normality dat.

Vytvoření histogramu kumulativních četností.

Charakteristiky variability

Charakteristiky variability

Charakteristiky polohy nás informují o “průměrné” charakteristice souboru dat. Získaná data však obvykle obsahují i pozorování, která jsou od hodnoty “průměru” značně odlišná. Charakteristiky vnitřní odlišnosti dat jsou tak stejně důležité. K základním, definovaným na intervalových datech patří:

  • rozsah, což je oblast dat mezi hodnotami minimum (MIN) a maximum (MAX)
  • rozptyl neboli variance je průměrná hodnota čtverce (POWER) odchylky měření od průměru a počítá se jinak pro základní soubor (VAR.P) a výběrový soubor (VAR.S)
  • směrodatná odchylka je druhou odmocninou z rozptylu; jelikož se liší výpočet rozptylu pro základní a výběrový soubor, má MS Excel samostatné funkce pro výpočet směrodatné odchylky pro základní soubor (SMODCH.P) a výběrový soubor (SMODCH.VÝBĚR.S), pokud uvádíte průměr, pak byste k němu měli uvést i hodnotu jeho směrodatné odchylky, neboť ta je v jednotkách průměru
  • variační koeficient je podíl směrodatné odchylky a hodnoty průměru a používá se v případě, když chcete porovnat variabilitu dvou proměnných, které mají různé jednotky

Variability ordinální dat lze posoudit pomocí kvantilů odvozených od mediánu:

  • kvartily (QUARTIL) jsou odvozeny od mediánu a jsou to hodnoty, které oddělují nikoliv poloviny měření (jako je tomu o mediánu; medián = hranice 2. kvartilu), ale čtvrtiny
  • percentily (PERCENTIL) jsou taktéž odvozeninou od mediánu, ale dělí soubor na setiny pozorování, stejně tak se používají decily

Oblíbenou společnou grafickou vizualizací charakteristik polohy a variability je krabicový graf (box-plot). Podle typu dat zobrazuje různé z výše uvedených hodnot.

Přehled základnách typů box-plotů.

Krabicový graf v R

My využijeme situace, že MS Excel automatickou tvorbu klasického krabicového grafu v nabídce nemá, a naučíme se ovládat R (1. Lekce).

 

Krabicový graf v MS Excel**

MS Excel jednoduše sám “vyrobit”  krabicový graf neumí a je nutné si data sama/sám připravit. Nejjednodušší případ box-plotu, který zobrazuje bodem hodnotu mediánu, “krabicí” 1. a 3. kvartil a “vousy” minimální a maximální hodnotu. V tomto případě vycházíme ze sloupcového grafu, kde boxy jsou de facto částí sloupce podle 1. 2. a 3. kvartilu a “vousy” jsou konstruovány jako chybové úsečky. Z tohoto je zřejmé, že pro konstrukci takového box-plotu potřebujeme umět z dat vypočítat charakteristiky polohy a umět pracovat s grafy MS Excel. Výpočet potřebných údajů je na videu, stejně jako tvorba vlastního box-plotu na druhé části videa.

Výpočet potřebných údajů pro sestavení box-plotu (nějak mi tam ujel medián u veg3, ale to pro naše potřeby nevadí).

Vytvoření box-plotu ze sloupcového skládaného grafu.

Doma si můžete instalovat doplněk Real Statistics, kde je na tento základní případ nástroj BoxPlot – schopen je pracovat i se zápornými daty. “Pravé” box-ploty mohou označovat různé hodnoty (tabule) – k tomu ale budete muset využít jiný software než je MS Excel.

Charakteristiky polohy

Charakteristiky polohy

  • aritmetický průměr (PRŮMĚR), který je definován na intervalové stupnici, se vypočítá jako podíl součtu měřených hodnot (SUMA) a počtu měření (POČET)
  • medián (MEDIAN), který je definován na ordinální stupnici, je hodnotou, která dělí data do dvou skupin o stejném počtu měření
  • modus (MODE), který je definován na nominální stupnici, je nejčastěji se vyskytující hodnotou; modů může být v souboru více

MS Excel umí i některé další funkce, např:

  • TRIMMEAN, který počítá průměr po odečtení stanoveného procenta maximálních a minimálních měřených hodnot, využít jej tedy můžete, když předpokládáte, že Vaše měření obsahuje odlehlé hodnoty (tedy takové, které na většinu Vámi změřených dat nesedí a předpokládáte, že vznikly souhrou náhod, chybou přístroje, Vaší nepozorností, atp. – k detailnějšímu zamyšlení o odlehlých hodnotách viz lineární regrese).

 

Normální rozdělení

Parametrické metody hodnocení souborů dat předpokládají, mimo jiné, normální rozložení zpracovávaných dat. Použít je můžeme jen když máme poměrová (intervalová) data a dostatečný počet měření (u nízkých počtů měření obvykle nebudeme moci potvrdit normální rozdělení, naopak u vysokých počtů měření i minimální odchylky od normálního rozdělení je statistickým testem normalita obvykle odmítnuta). V tomto měření by pak, vulgárně řečeno, měl být nízký počet velmi nízkých i velmi vysokých měřených hodnot. Četnosti měření by od velmi nízkých a velmi vysokých měly měly postupně růst k hodnotě průměru, která je velmi blízká mediánu a modu.

Toto rozdělení je základním rozdělením dat, nazývá se Gaussovým a má zvonovitý charakter. Platí, že hustota pravděpodobnosti je u něj symetrická. K výpočtu hustoty se používá Ludolfova čísla, základu přirozeného logaritmu a parametrů – průměru a rozptylu – průměr posouvá křivku po ose x a rozptyl udává “výšku” Gaussovy křivky.

Standardizované normální rozdělení

Standardizace je postup, jímž získáváme novou proměnnou, která je odvozena z měřených hodnot původní proměnné, ale její (tedy té nové proměnné založené na datech původní proměnné) průměr je 0 a rozptyl se směrodatnou odchylkou jsou 1. Výpočet standardizace provedeme tak, že od každé měřené hodnoty proměnné odečteme průměrnou hodnotu všech měření proměnné a tento rozdíl vydělíme směrodatnou odchylku průměru měřené proměnné (detailněji v navazujícím kurzu).

Posouzení normality

  1. Okometrické posouzení histogramu, v R i MS Excel jsme již histogram řešili (vid dříve).
  2. Okometrické posouzení Q-Q grafu. Na ose x je teoretické rozdělení mých dat a na ose y “reálné” rozdělení mých dat, jednotlivá měření jsou pak vynesena jako body kombinace reálné a očekávané hodnoty měření – pokud by se jednalo o normální rozdělení, pak by všechny body měly ležet na diagonále grafu – čím větší odchylky od diagonály, tím větší odchylka od normality. V R se používá příkazů qqnorm() a qqline () – více v páté lekci R.Tvorba Q-Q grafu v MS Excel** je na videu.

Návod na vytvoření Q-Q grafu v MS Excel.

3. Posouzení šikmosti a špičatosti rozdělení, jejichž vysvětlení je uvedeno na tabuli. Za špičatá, respektive šikmá rozdělení, lze považována taková, jejichž hodnoty jsou nižší než -2 nebo vyšší než +2. Výpočet v R je v páté lekci R.

Špičatost a šikmost v porovnání s normálním rozdělením.

  • Šikmost (SKEW) se vypočítá jako podíl třetího centrálního momentu (= třetí mocniny rozdílu všech měřených hodnot a průměru) a třetí mocniny směrodatné odchylky, normální rozdělení má hodnotu 0, rozdíl mé hodnoty od nulové lze testovat a kritické hodnoty jsou pro různý počet n tabelovány např. zde,
  • Špičatost (KURT) se vypočítá jako podíl čtvrtého centrálního momentu a čtvrté mocniny rozptylu od níž odečítáme hodnotu 3, pokud je hodnoty větší než 0, pak je rozdělení našich dat špičaté, jinak je ploché, opět lze hodnotu špičatosti testovat, kritické hodnoty zde.

4. Test normality rozdělení. Normalitu rozdělení lze i testovat. V praxi se používá mnoho testů – nejčastěji chí-kvadrát (který si ukážeme později), Kolmogorov-Smirnov test (pro nějž máte dobrovolné návodné video v MS Excel níže) a Shapiro–Wilk test – jež se naučíme v R v páté lekci R.

 

Pro MS Excel** je nejvýhodnější použít Kolmogorov-Smirnov test, což je neparametrický test, který je obdobou chí-kvadrát testu, více v neparametrických metodách. Na tomto konkrétním místě nám jde o techniku výpočtu – video.

Kolmogorov-Smirnov test použitý k testu normality dat.

Doma můžete použít RealStatistics s těmito moduly.

Ve Vaší praxi budete tímto rozdělením aproximovat i diskrétní data, podmínkou použití ale bude, že k dispozici budete mít opravdu mnoho měřených hodnot.

Testování hypotéz

Podstata statistického testování hypotéz tkví ve filozofiích karteziánského racionalismu, pozitivismu a kritického racionalismu, tedy toho, co je označováno za “vědecký” přístup. Z toho poslední plyne tvrzení, že pravdivé hypotézy jsou pouze ty, které nelze falzifikovat – hypotézu nelze potvrdit, ale snažíme se o její vyvrácení, pokud ji vyvrátíme, není pravdivá, pokud ji nelze vyvrátit chováme se k ní jako k pravdivé (dokud nebude vyvrácena).

Statistické hypotézy tedy vycházejí z předpokladu, že hypotézu nelze na základě dat dokázat, nicméně ji lze vyvrátit. Proto se formulují hypotézy, které se označují H0, tedy nulové hypotézy, které jsou obvykle opakem toho, co se snažíme prokázat!!!!!!!! Proto H0 obvykle zní “není rozdíl mezi skupinou X a skupinou Y”. Pokud jsme schopni na základě dat nulovou hypotézu vyvrátit, mohu ji zamítnout a mohu přijmout ji negující hypotézu (alternativní, která se obvykle značí HA nebo H1).

Způsob uvažovaní při testování hypotéz a faktorů ovlivňujících jejich výstup si ukážeme na příkladu dvouvýběrového t-testu, ke kterému se dostaneme v konkrétní podobě za chvíli.

Přijmutí nebo zamítnutí nulové hypotézy vychází z porovnání vypočtené hodnoty statistické metody (což je nějaká funkce, vzorec, do kterého vstupují měřená data) a kritické hodnoty dané metody (hodnota je tabelována = najdu ji v tabulkách, statistické software ji znají a rovnou reportují). Princip je shrnut na tabuli.

Pravděpodobnostní podstata testu hypotézy.

Je-li hodnota vypočtená z našich dat menší než kritická, pak nulovou hypotézu nemohu zamítnout a opačně (toto neplatí vždy – výjimkou jsou např. Mann-Whitney a Wilcoxon, jejichž funkce mají obrácený charakter – tabule).

U Mann-Whitney a Wilcoxon testů je rozhodování “opačné” než u t-testu.

Kritická hodnota je závislá na pravděpodobnosti, kterou jsem ochoten přijmout pro platnost nulové hypotézy a odpovídá hodnotě dané pravděpodobnosti pod křivkou funkce hustoty rozdělení pravděpodobnosti (celkový obsah pod křivkou je 100% a já říkám, co je nepravděpodobné – nejčastěji 5 %, 1 %, nebo 0,1 %, pravděpodobnost platnosti H0 je tedy 95%, 99%, resp. 99,9%, nejčastěji se tato hodnota uvádí jako hladina významnosti, která se značí “p” a uvádí se v desetinách, tedy 0,05, 0,01 a 0,001). Čím je tato hodnota nižší, tím podstupuji větší riziko, že zamítnu skutečnost, která je pravdou (= chyba 1. druhu), na druhou stranu tím snižuji pravděpodobnost, že bych zamítl hypotézu, která by nebyla pravdou (= chyba 2. druhu). Samozřejmě to platí i opačně.

POZOR – nestanovuji její konkrétní kritickou hodnotu, ale pravděpodobnost – od ní se odvíjí konkrétní kritická hodnota. Je to proto, že tvar křivky se mění s počty stupňů volnosti a mohu testovat oboustrannou i jednostrannou rovnost – viz dále.

Kritická hodnota statistické metody je tedy závislá na počtu stupňů volnosti. Ty se odvíjejí od počtu měření a v mnoha testech i od počtu kategorií, pro něž se test provádí. U našeho modelového testu platí, že kolem nuly je křivka vyšší a celkově je vysoká část užší při vyšších hodnotách počtu stupňů volnosti, proto pak je kritická hodnota pro stejnou hladinu významnosti v absolutní hodnotě menší číslo než u nižšího počtu stupňů volnosti – v rámcích statistiky je to logické – mám více měření, jsem blíže základnímu souboru a tedy data jsou blíže “pravdě”. Vliv počtu stupňů volnosti je znázorněn na tabuli.

Vliv počtu stupňů volnosti.

Existují i případy, kdy nás nezajímá test shody dvou výběrů, ale H0 je postavena na nerovnosti (typicky mám dva výběry a vím, že jeden by měl dosahovat vyšších hodnot, pak nemá smysl testovat rovnost, ale bude nás zajímat jen jedna strana. Kritická hodnota je pak jiná při stejném počtu stupňů volnosti a hladině významnosti – vysvětlení proč je modrou barvou na tabuli.

Jednostranný test vs. oboustranný test.

MKV1 – požadavky

K zápočtu

Získání zápočtu je podmíněno ziskem v součtu alespoň 60 % bodů ze dvou zápočtových testů (platí pro PS; KS píše test jediný) a účastí na cvičení (povoleny jsou dvě absence; platí pro PS).

1. “Midterm exam”

Probíhá v polovině semestru – pokud nedojde k nějakému odpadnutí výuky, tak v 7. týdnu semestru, vždy po před neparametrickými testy. Předmětem tohoto testu je praktická aplikace látky probírané na 1.- 6. cvičení:

  • výpočty charakteristik polohy a variability,
  • tvorba histogramu a kontingenční tabulky,
  • posouzení normality dat
  • testování hypotéz – t-testy, F test

Zadáno je vždy 6 úloh. Vybrané výsledky zapisujete do tištěného zápočtového testu. Na vypracování testu je k dispozici 75 minut.

Pravidla pro vypracování:

Pracujete výhradně s daty předanými pedagogem.
Při vypracovávání můžete používat Help R a MS Excel. Během vypracovávání zápočtu je zakázáno prohlížení jiných stránek než odkazů z Help obou programů.

2. zápočtový test

Probíhá v zápočtovém týdnu. Předmětem také tohoto testu je ověření schopnosti řešit problémy kvantitativního zpracování dat v prostředích R a MS Excel.
Zadány jsou vždy 4 úlohy. Vybrané výsledky zapisujete do tištěného zápočtového testu. Na vypracování testu je k dispozici 60 minut.
2. zápočtový test je zaměřen na schopnost řešit úkoly druhé části semestru:

  • chí-kvadrát test,
  • Fisherův exaktní test,
  • Mann-Whitney test,
  • Wilcoxonův test,
  • jednofaktorová ANOVA,
  • Kruskal-Wallisův test,
  • výpočet kovariance, korelace a regrese

Pravidla pro vypracování:

Pracujete výhradně s daty předanými pedagogem.
Při vypracovávání můžete používat Help R a MS Excel. Během vypracovávání zápočtu je zakázáno prohlížení jiných stránek než odkazů z Help obou programů.
Pokud jste z důvodu absence neabsolvovali “midterm exam”, pak jej absolvujete společně s 2. zápočtovým testem v zápočtovém týdnu.

Pokud v součtu “midterm exam” a 2. zápočtového testu nezískáte minimálně 60 %, musíte absolvovat oba testy společně v opravném termínu – opravné termíny máte dva.

Jelikož se ukázalo jako nemožné provést “midterm exam” pro kombinované studium, bude kombinované studium psát oba testy společně v jednom termínu, na kterém se dohodneme na první konzultaci!!!!!!!!!

Ke zkoušce

Absolvování zkušebního testu alespoň na 60 %. Zkušební test je zaměřen na teoretické znalosti, je v něm položeno 14 otázek. 10 otázek je vždy se čtyřmi možnostmi odpovědí (právě jedna z nich je správná) – za správnou odpověď se získává bod, za chybné odpovědi se body neodečítají, 4 otázky jsou s volnou odpovědí, za správnou odpověď se uděluje bod. Na povinnou písemnou část zkoušky navazuje volitelná část ústní. K absolvování zkoušky je třeba 8 bodů. Čas na vypracování je 25 minut.

Známkování:

8 bodů 3
9 bodů 2-
10 a 11 bodů 2
12 bodů 1-
13 a 14 bodů 1

Data

Základní kurz

Pro box-plot (konduktivita, jaro, podzim)

Pohlaví/(délka, výška, šířka)

Podzemní voda na rašeliništích

Databáze 1 – spojení tabulek

Databáze 2 – informace o druhu k fotografii

Ostrorep – F(šířka, hmotnost)/M(biomasa)

Ostrorep – F(barva, trny)/M(přítomnost)

Tělesná teplota (ráno, v poledne, večer)

Výška rostliny/(substrát, poloha)

Rozšiřující kurz

ANOVA – druhy a prostředí
Vliv substrátu na druh
Regrese – vejce
Shluková analýza – druhy
Gradientová analýza – rašeliníky a faktory prostředí

. . . je doplňováno v průběhu semestru

LIMDEP

Jde o software určený k analýze ekonomických dat a jeden z nejdůležitějších ekonometrických programů vůbec. Následující platí pro NLOGIT4 bežící  s LIMDEP9 na platformě Windows10.

Prostředí

Filozoficky je založen na práci v projektech – koncovka *.LPJ. Projekt je primárně prostor správy dat, se kterými pracuji – nejdůležitější jsou data pro analýzu. Vlastní statistická práce se děje buď přes průvodce, kteří jsou podobní jako ve Statistica (k nim se dá dostat přes roletky a jednotlivé karty) nebo zadáváním příkazů ručně jako v R v “klasickém” textovém editoru (viz níže) – ty lze uložit jako *.LIM. Kromě těchto dvou součástí existuje ještě třetí, která nese název “Output” a je rozdělena do dvou částí – ve vrchní je Trace, kde jsou dokumentovány veškeré provedené kroky (především odeslané příkazy a stavy systému, ke kterým tyto příkazy vedly), ve spodní je vlastní Output, kde jsou postupně zobrazovány výsledky všech provedených příkazů. Uložit jej lze taktéž s koncovkou *.LIM. To je dost nešťastné a je třeba si odlišovat názvy, co jsou soubory s příkazy a co s výstupy.

Popis prostředí na videu zde.

POZOR – vše ukládáme pomocí panelu nabídky – ta se mění podle toho, jestli jsem nakliknut v projektu, v příkazech nebo výstupech – je třeba si dávat pozor na to, co ukládám – podobně jako ve Statistica.

Vstupní data

Existuje nekonečně mnoho způsobů jak dostat data do programu. V kombinaci s Windows10 mi však “normálně” funguje jediný postup.

Před importem dat je třeba nejprve nastavit “Work Areas”, primární je nastavit počet buněk a následně řádků tak, aby se mi do toho vešla veškerá data a proměnné, které hodlám dopočítávat. Postup je zde:

Přestože data lze v LIMDEP v podstatě jakkoliv upravit, důrazně doporučuji udělat veškeré úpravy dat v MS Excel a do LIMDEP importovat finální soubor. Postup je na videu.

Pravidla pro názvy proměnných:

  • název proměnné může mít max. 8 znaků a z nich jen číslice, písmena a dolní podtržítko”_”
  • vyhrazená slova jsou na s. R3-16 nahoře

Pravidla pro data:

  • mohou nabývat pouze číselné hodnoty (s desetinnou tečkou) – nominální proměnné kódu pouze čísly
  • čísla se oddělují mezerami a/nebo čárkami
  • chybějící data musí být označeny něčím jiným než číslem – znamená to čímkoliv, nejlépe je na dané místo napsat “m”
  • POZOR – Data Editor” zobrazuje jen 1900 případů – zkutečný počet pozorování se dozvíte v jeho okně na řádku vlevo nahoře, společně s počtem řádků a počtem obsazených proměnných.

Proměnné lze grupovat do různých skupin – k tomu slouží příkaz

NAMELIST; název seznamu proměnných = názvy proměnných oddělených čárkou $ Pro tvoření názvů platí stejná pravidla jako pro názvy proměnných – namelistů může být maximálně 25 a v každém maximálně 150 proměnných
 
Výběr z případů pro analýzy lze udělat různě. První možností je přímo u daného příkazu. Zde lze použít specifikace 
 
    PŘÍKAZ ; If [sex=1] ; Lhs = proměnná1 ; Rhs = proměnná2,proměnná3, . . . $ Tady se udělá příkaz na daných proměnných jen pro ženy. 
 
Nebo pomocí specifikace 
 
    PŘÍKAZ ; For [sex] ; Lhs = proměnná1 ; Rhs = proměnná2,proměnná3, . . . $ Tady se příkaz provede zvlášť pro všechny parametry, které obsahuje proměnná sex – čili zvlášť pro ženy=1 a muže=0.
 
Globálně lze udělat výběr, na kterém se dělají všechny dále uvedené příkazy, pomocí nástroje “actual sample“, který se specifikuje pomocí příkazu 
 
    SAMPLE ; výčet případů $. Tento výčet lze doplnit nebo z něho vyjmout případy pomocí funkcí REJECT a INCLUDE, kde za středníkem následuje podmínka. 
 
Výběry jsou obvykle definovány komplikovanými podmínkami – všechny možné případy jsou v kapitole R7.4.  
 
Specifickým výběrem z  případů je náhodný výběr z případů, který je nejlepší dělat přes nabídku Project – Set Sample – Draw… Tam “replacement” znamená, že jeden případ může být vybrán vícekrát. Funkce pro textový editor se jmenuje DRAW (R7.5).
 

Transformace dat

Jak už bylo zmíněno výše – nejlepší je veškeré transformace udělat v MS Excel a do LIMDEP si naimportovat data čistě pro analýzy. LIMDEP má spoustu předdefinovaných specifikací pro příkaz CREATE, jímž se tvoří nové proměnné (= transformované původní proměnné) – seznam je na s. R5-9. Tvorba může být vysoce komplikovaná a zahrnovat podmínky typu If/Else.
 
V některých případech je vhodné použít LIMDEP místo MS Excel, k nim patří především automatické vytvoření dummy variables z jedné kategoriální proměnné se syntaxí CREATE ; Expand (název proměnné) = jména nových proměnných oddělených čárkou. Podstatné je, že kódování musí být pouze celými čísly, která začínají od 1 a v řadě nechybí číslo. Pak platí, že místo kódu 1 bude proměnná uvedená první v pořadí, místo kódu 2 bude proměnná uvedená druhá v pořadí, atd. Pokud je více kategorií než jmen nových proměnných ve specifikaci příkazu, pak se pojmenují původním názvem s pořadovým číslem kódu.
 
Dalším případem vhodného použití je generování náhodných čísel s daným rozdělením. Jejich přehled a syntaxe jsou na R5-19 a R5-20.
 
Kompletní přehled transformací je v kapitole R5.

Panel data

V některých případech je nutné data k jednomu měření (= jednomu objektu) zaznamenat na více řádků – takovýmto datům se říká “panel data”. Pokud je u každého měření stejný počet řádků, pak jsou data “ballanced”, pokud ne, pak “unballanced”. 
 
Panel data se v příkazech uvádí specifikací 
 
    ; Pds = počet řádků u “ballanced”  nebo ; Pds = název stratifikační proměnné u “unballanced”

Syntaxe

Rychlý průvodce je v kapitole R3.5, základní model vypadá takto:
 
Příkaz ; specifikace1 = její parametr ; specifikace2 = její parametr  $
  • specifikace lze psát na samostatné řádky
  • pod sebe mohu napsat několik příkazů
  • příkaz musí vždy začínat na novém řádku a končit symbolem “$”
  • ignorovány jsou nadbytečné mezery i prázdné řádky 
  • komentáře, které program rozpozná jako něco, co není příkaz nebo specifikace, a nevadí mu to při vykonání, se píší na konec řádku za “?” – nesmí za ním ale následovat konec “$”, pač ho program nenajde
  • blok komentářů (= textu ignorovaného programem) se píše tak, že na začátku řádku uvedeme “/*” a na konci “*/”, komentář může zahrnovat mnoho řádků a nesmí zasahovat žádnou svou částí na řádky, kde jsou příkazy
  • některé specifikace nemají parametry, ale pouze říkají, že model má být takový, např. ; Panel  

Drtivá většina příkazů má strukturu odvozenou on tohoto modelu:

 
PŘÍKAZ     ; Lhs = závislá proměnná
           ; Rhs = one, závislé proměnné oddělené čárkou
           ; . . . další specifikace modelu ; … $ 
 
one je konstanta, kterou Statistica počítá automaticky, ale LIMDEP nikoliv – neměla by se dávat u regresí s pevnými efekty, jinak většinou ano a automaticky je počítána jen stepwise lineární regrese.
 
Váhy se používají u metody nejmenších čtverců – místo druhé mocniny je použito násobku hodnoty reziduálu a hodnoty váhy. I u metody maximum likehood je vahou násoben člen v log likehood a jeho deriváty a nikoliv vlastní data. Během výpočtu jsou váhy automaticky přeškálovány. Specifikace je 
 
    ; Wts = jméno proměnné  
 
Všechny modely jsou dosažitelné bez znalostí syntaxe přes výše zmiňované průvodce (“Command Builder”). Problémem je, že modely mají mnoho specifikací – až 150 a ty nelze tímto průvodcem všechny postihnout, proto v průvodce nejsou, lze je však do příkazu v textovém editoru po proběhnutí výpočtu z průvodce doplnit a přes “Go” spustit analýzu znovu.  

Výstupy výpočtů

Ty nalezneme v okně “Output”, zmíněném výše, popřípadě matice jsou ukládány přímo do projektu, stejně jako skaláry a nové vypočítané proměnné – LIMDEP je ukládá automaticky. Na našem noťasu je jediný způsob jak dostat data z “Output” do MS Excel přes schránku – CTRL+C a pak CTRL+V.
Kromě toho jsou výsledky posledně aplikovaného testu v okně projektu v částech “Matrices” a “Scalars”
 
Charakteristiky polohy a variability (průměr, s.d., min, max a n) lze získat přes DSTAT ; Rhs = výčet proměnných $, zadáte-li ještě 
  • ; All $, pak dostanete info k šikmosti a špičatosti
  • ; Normality test, pak k tomu budete mít i test normality dat, což je největší výhoda tohoto software oproti Statistica
  • ; Output = 1, pak dostanete i kovariační matici
  • ; Output = 2, pak dostanete i korelační matici
  • ; Output = 3, pak dostanete obě matice
  • ; Quantiles, pak dostanete kvantily (decily)
  • a pokud za ně zadáte ještě ; Plot, pak dostanete ještě Norm-Quantile Plot
  • když místo toho zadáte ; Box Plots, pak dostanete krabicový graf
Máte-li k dispozici proměnnou, kterou určujete skupiny, pak ji lze tuto použít jako stratifikační a vše předchozí zobrazit pro v této proměnné uvedené kategorie (např. zvlášť pro samce a samice, či muže a ženy) po zadání ; Str = stratifikační proměnná $
Lze udělat i výběr ; If [proměnná <= číslo] ; Rhs = jména proměnné ; … $
 
Kromě příkazu DSTAT existuje ještě příkaz TABLE, který je mu hodně podobný a liší se jen charakterem výstupních dat, která mají podobu “klasické” tabulky – používá se tohoto příkazu především, když chci deskriptivní statistiku stratifikovaných dat:
  • místo specifikace ; Str lze použít ; Pds = číslo  $, kterým se udává počet případů, které tvoří skupinu v balanced panel data
  • nejzajímavější specifikace je pak ; FPC = počet členů základního souboru $, který Vám vrátí s.e. a 95% konfidenční intervaly upravené právě podle počtu celkové populace (což je výhodné u sociologických výzkumů) 
  • další možnou specifikací je ; Cluster = stratifikační proměnná $, která Vám dá stejný výsledek jako  ; Str plus s.e. 
 

LIMDEP

Histogram má příkaz HISTOGRAM v základní syntaxi HISTOGRAM ; Rhs = jméno proměnné $
U poměrových proměnných: 
  • dělá automaticky 40 intervalů, lze nastavit pomocí ; Int = počet skupin 
  • lze zadat levé hranice intervalů ; Limits = hranice oddělené čárkou a mezerou
  • Limits a Int lze kombinovat
U diskrétních dat:
  • lze vytvořit max 90 intervalů
  • lze omezit jejich počtem podmínkou ; If [proměnná <= číslo] ; Rhs = jméno proměnné $
Multiple histogramy: 
  • lze dělat do počtu 4 proměnných, kde se všechny zadávají jako Rhs nebo stratifikací příkazem ; Group = stratifikační proměnná (kategorií může být max 4)
  • počet proměnných a Group lze kombinovat
  • pomocí ; Choice = kategorie z daní proměnné – lze tedy z proměnné zobrazit jen některé kategorie (ty lze například i dělit dále pomocí ; Group)

Regrese

LIMDEP automaticky nezobrazuje očekávané hodnoty a reziduály, ty je nutno vyvolat pomocí specifikací:
  • ; Keep = jméno nové proměnné – uloží očekávané hodnoty do proměnné zadaného jména 
  • ; Res = jméno nové proměnné – uloží reziduály do proměnné zadaného jména
  • ; List – zobrazí obě předchozí a další informace k provedené regresi (viz R10-33 dole)
  • ; Fill – zadá-li se ; Keep = jméno proměnné , pak dopočítá očekávané hodnoty i pro pozorování, která nebyla součástí výpočtu – výpočet byl proveden na “actual sample”, který netvořily všechny případy, jde tak o vanikající nástroj pro dopočítávání predikčního hodnot (příklad s regresemi ja na s. R10-32 a R10-33) 

Turboveg

Tato stránka obsahuje informace pro práci v systému pro zadávání fytocenologických snímků.

Instalace programu

Postupujte přesně podle návodu zaslaného v e-mailu z MU.
Tedy:

  1. Stáhněte si vlastní program ze stránek MU (odkaz a hesla máte v návodu v bodu 1). Pokud Vám to nefunguje, tak si soubory stáhněte ze školního počítače – se školní IP to půjde na 100%.
  2. Stáhněte si aktualizační soubor z adresy v návodu v bodu 2.
  3. Stáhněte si aktuální verzi druhových seznamů popup.zip ze stránek MU uvedeném v bodu 3.
  4. Nainstalujte program a pak nainstalujte aktualizace. Pokud používáte AVAST, tak to může nějakou dobu trvat.
  5. Rozbalte popup.zip do adresáře TURBOWIN (nebo jiného, podle toho, jak jste si adresář s programem uložili).

Založení databáze

Svá terénní druhová data ukládáte do databáze. Na jednu DP nebo BP si udělejte jednu databázi, ať je s tím v budoucnu rozumnější práce. Pokud budete Turboveg používat i na jiné účely než je BP nebo DP, tak si pro ně založte vlastní jiné databáze.

Návod na vytvoření databáze je na externím odkazu na s. 5 dole a pokračování je na s. 6. Tady je video s ukázkou založení databáze.

Zadávání snímků

  • Zadávání hlavičkových dat – úvod, form 1: video
  • Zadávání hlavičkových dat – form 2: video
  • Zadání druhu – úvod a první druh: video
  • Zadání druhu – doplnění všech druhů ve snímku: video
  • Zadávání hlavičkových dat nového snímku – použití hlavičky z předchozího snímku: video
  • Opakování zadávání druhů na druhém příkladě: video

Na videích by mělo být vše, co potřebujete umět. Jinak program toho umí samozřejmě více – pokud budete něco dalšího potřebovat, tak postupujte podle manuálu.

Jak opravit už zadaný snímek

  • Opravy ve hlavičkových datech: video
  • Opravy chyb v druzích: video

Operace s hotovými databázemi

  • Export snímků do XLS: video
  • Zálohování souborů databáze pro přenos celé databáze: video (tento ZIP mi posíláte ke kontrole databáze)