Asociační koeficienty

Základy: Podobnosti, nepodobnosti a vzdálenosti

Vstupním souborem pro vícerozměrné statistické metody jsou tabulky charakteru databáze, kdy na řádcích jsou jednotlivé případy (= objekty, jejich počet je značen n) a ve sloupcích jsou jednotlivé parametry (jejich počet je značen p). K dispozici je tedy n x p matice objektů a parametrů. Z ní je počítána asociační matice (= matice vztahů), kde v řádcích i sloupcích jsou jednotlivé parametry a v matici jsou na základě hodnot objektů počítané asociační koeficienty (Haruštiaková et al., 2012 kap. 4).

Asociační koeficienty proměnných

Základní asociační koeficienty proměnných jsme poznali v základní statistice – kovarianci, Pearsonův korelační koeficient, Spearmanův korelační koeficient.

Asociační koeficienty vzdálenosti objektů

Ty patří v mnohorozměrných analýzách k nejvýznamnějším. Jejich podstatou je skutečnost, že koeficient má maximální hodnotu dvou objektů, které jsou nejvíce odlišné a objekty identické mají vzdálenost nulovou. Podmínky uvádí Haruštiaková et al. (2012) na s. 16, zde je i jasný popis nejčastěji používané metriky vzdálenosti – Euklidovská metrika – na příkladu dvou proměnných. Její použití předpokládá standardizovaná vstupní data. Vzhledem k tomu, že je základem shlukových analýz, je jasný požadavek na standardizaci dat před využitím shlukové analýzy. Dále jsou uvedeny další metriky bojující s nedostatky euklidovské vzdálenosti.

Asociační koeficienty podobnosti objektů

Nejsou metrické = neplatí pro ně zásady uvedené na s. 16 (Haruštiaková et al., 2012) a nelze je přímo umístit v metrickém prostoru – nicméně je lze převést na vzdálenosti. Jejich základem je posouzení “shody” v hodnotách dosažených u jednotlivých proměnných (u většiny koeficientů platí, že je míra podobnosti je vlastně vyjádřením relativní shody). Koeficienty mohou být symetrické nebo nesymetrické – nesymetrické jsou založeny na předpokladu, že některé kombinace dosažených hodnot mají jinou váhu než ostatní – typicky duplicitní nulové hodnoty u srovnávaných objektů nejsou informací o podobnosti. Koeficienty byly vyvinuty primárně pro binární proměnné a následně byly určeny i jejich kvantitativní varianty – tabulky v kapitole 4 (Haruštiaková et al., 2012) jsou snad jasné.

Kejkle s daty

Transformace a metody “standardizace”

Transformace dat se provádí relativně velmi často, a to především ve dvou případech – buď potřebujeme “zlineárnit” závislosti proměnných (např. u lineární regrese) nebo častěji přiblížit rozdělení získaných dat normálnímu rozdělení (abychom mohli použít statistiky, které předpokládají normalitu v datech – např. u ANOVA). Přehled tří nejčastěji používaných transformací uvádí Lepš (1996, s. 99-102 a 113-116). Transformace dat ve STATISTICA je na videu a je podobná jako v práce v MS Excel.

 

Transformace dat ve STATISTICA.

 

Dalšími úpravami dat, které některé statistické metody vyžadují jsou centrování, standardizace a normalizace (Haruštiaková et al., 2012, kap. 2.2.2 a 2.2.3).

Například u mnohonásobné lineární regrese je jedno, jestli jsou jednotlivé vysvětlující proměnné na různých škálách (pH nabývá jiných absolutních hodnot než teplota nebo koncentrace iontů), nicméně u mnohorozměrných metod to “jedno” není (především to platí pro shlukovou analýzu) a jednotlivé proměnné je třeba převést na jednotkovou stupnici, tedy “zrelativnit” vlastní měřená data. Nejvýhodnějším postupem je tzv. standardizace směrodatnou odchylkou (Z-skóre), kdy od každé měřené hodnoty proměnné odečtu průměrnou hodnotu všech měření a tento rozdíl vydělím směrodatnou odchylku tohoto průměru. Ve výsledku pak získám proměnnou jejíž průměr je 0 a směrodatná odchylka 1. Pokud to provedu se všemi vysvětlujícími proměnnými, pak jsem je převedl na stejné měřítko. MS Excel na ni má samostatnou funkci – standardize. Standardizací ale existuje větší množství.

V některých případech však potřebuji, aby byly převedeny měřené proměnná na jednotné měřítko, ale výsledné hodnoty zůstaly kladné. Nejčastěji se tak děje pomocí lineární normalizace, jejímž výsledkem jsou hodnoty od 0 do 1. Používá se různých postupů – nejjednodušším je min-max normalizace označovaná i jako standardizace rozpětím:

xi’ = (xi – min(x1, . . . xn))/(max(x1, . . . xn) – min(x1, . . . xn))

Matematicky nejjednodušším převedením na relativní měřítko je centrování, které zahrnuje pouze odečtení průměru proměnné od konkrétní měřené hodnoty.

Komplikované je rozhodování o transformacích v mnohorozměrných analýzách, kdy vysvětlovanou proměnnou není jedna měřená charakteristika, ale druhové složení (Lepš et Šmialuer, 2000, kapitola 1.11.). POZOR – pokud v botanice používáte Braun-Blanquetovu stupnici, kterou kódujete 1 až 7 nebo 9, tak stupnice už v podstatě logaritmická je.

Chybějící data

Je obvyklé, že v měřeních máme nějaká data chybějící – prostě z nějakých příčin nebylo možné měření uskutečnit – respondent odmítl odpovědět, louže pro odebírání vody vyschla, zapomněl jsem doma metr. Nemělo by se to stát, ale co když se to stane? Možná řešení uvádí v přehledu Haruštiaková et al. (2012, kap. 2.2.1)

Soubory pro R

Na tomto postu tvoříme učebnici práce v R.

Odkazy pro práci

Instalace

  • nejprve musíte stáhnout a nainstalovat R, kompletní přehled možností je zde
    • aktuální verze R pro Windows7-10 (říjen 2018) je zde (odkaz vede přímo na instalační soubor)
  • pak si musíte stáhnout a nainstalovat R Studio, kompletní přehled možností je zde
    • aktuální verze R Studia pro Windows7-10 (říjen 2018) je zde (odkaz vede přímo na instalační soubor)
  • případný problém s instalací packages je způsoben diakritikou v názvu Users
    • Problém je v tom, že instalaci packages provádí R Studio do adresářové struktury R/win-library/3.5, kterou vytváří sám ve složce Dokumenty, jež je pod složkou Users, mno a pokud se účet jmenuje třeba”uživatel”, tak si R Studio, jelikož v tomto případě nezná diakritiku, do adresářové struktury píše místo “ž” otazník a pak logicky není schopen tuto cestu najít, protože hledá v Users složku “u?ivatel”, která tam není, bo je tam “uživatel”. Pokud k tomu dojde, tak je třeba ručně zadat celou strukturu R/win-library/3.5 do Dokumentů v Průzkumníkovi nebo File Manageru, pak je třeba v R Studiu spustit instalaci prvního package oklikou přes Import Dataset – From Excel, který instaluje package automaticky a už sám vidí námi vytvořenou cestu – ten nainstaluje package readxl, mno a teprve pak už lze instalovat klasicky přes Packages-Install, protože software už ví, kde struktura adresářů R/win-library/3.5 je, a už je schopen do ní ukládat.
  • do setwd vkládejte na školních počítačích “C:/Users/uživatel/Documents/R”
  • cesta k souborům na flešce vy měla být “E:/R/nazevsouboru.xlsx, pokud je máte na počítači, pak je dávejte do R v Dokumenty, takže cesta bude “C:/Users/uživatel/Documents/R/nazevsouboru.xlsx

Klávesové zkratky

R používá několik speciálních symbolů, jejichž klávesové zkratky je dobré znát nazpaměť:

  • CTRL + Enter: vykonávání příkazů ze zdrojového souboru skriptu do Console
  • Alt + 35: symbol dvojitého křížku pro vkládání poznámek ve skriptu
  • Alt + “dolní podtržítko”: vytvoření symbolu pro definování objektů, tedy “šipka”
  • Alt + 36: symbol dolaru pro výběry sloupců v datových tabulkách
  • Alt + 34: uvozovky
  • Alt + 126: vlnovka pro výběr skupin v proměnné

1. Lekce: Funkcionalita

Funkcionalitu si nejlépe ukážeme na konkrétním případě, kterým bude úkol na sestrojení box-plotu z dat uložených v MS Excel.

Data – zde

R soubor – zde

Co jsme se naučili:

  • otevřít a program a ukončit práci programu
  • poznali jsme aktivaci knihovny
  • uložení objektu
  • práce s nápovědou
  • práce s funkcemi
  • zadávání atributů a jejich funkčnost

Poznané funkce:

  • setwd() – nastavuje pracovní adresář
  • library() – aktivuje package
  • read_excel() – s cestou načte soubor s koncovkou XLS a XLSX
  • class() – identifikuje typ objektu
  • boxplot() – vytvoří z daného souboru box-plot podle nastavených atributů
  • help() – vypíše nápovědu k zadané funkci
  • c() – funkce pro definování vektorů
  • bxp() – funkce pro úpravu grafiky uloženého objektu z výstupu funkce boxplot()
  • (boxplot()) – vypíše číselné údaje z funkce boxplot()

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”, v MS Excel si rozdělte data podle pohlaví (1= samci, 2= samice), v R vytvořte boxploty srovnávající variabilitu samců samic postupně podle délky, výšky a šířky.

 

2. Lekce: Práce s vektory

V této části se naučíme pracovat se základními objekty, kterými jsou vektory a od nich odvozené faktory (= kategoriálními vektory)

Data – budeme si je postupně sami tvořit v R

R soubor – zde

Co jsme se naučili:

  • operátory a v rámci nich používat R jako kalkulačku
  • definování vektoru
  • spojování vektorů
  • mazání objektů
  • pojmenovávání prvků objektů
  • postup výběru prvků (jednoduché hranaté závorky)
  • funkce pro charakteristiky polohy a variability
  • že funkce lze kombinovat

Poznané funkce:

  • rm() – zmaže zadaný objekt
  • names() – pojmenovává prvky objektů (v pořadí prvků)
  • lenght() – vrací dálku vektoru
  • mean() – aritmetický průměr z číselného vektoru
  • median() – medián číselného vektoru
  • min() – minimální hodnota z číselného vektoru
  • max() – maximální hodnota z číselného vektoru
  • quantile() – kvantily z číselného vektoru
  • sd() – směrodatná odchylka z číselného vektoru
  • var() – rozptyl z číselného vektoru
  • sqrt() – druhá odmocnina z čísla

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Podzemní voda na rašeliništích”. Použijte One-way ANOVA a Kruskal-Wallisův test k testování
  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”, v MS Excel si rozdělte data podle pohlaví (1= samci, 2= samice), v R vypočítejte hodnoty průměru, mediánu,minima, maxima, dolního a horního kvartilu, směrodatné odchylky, rozptylu a variačního koeficientu délky jedinců zvlášť pro jednotlivá pohlaví.

 

3. Lekce: Práce s “tabulkami”

Minule jsme se podívali na vektory, nyní se podíváme na práci s tabulkami, které budeme hodnotit častěji než samotné vektory/faktory

Data – budeme si je postupně sami tvořit v R

R soubor – zde

Co jsme se naučili:

  • poznali jsme typy “tabulek” = matice, pole, datové tabulky, seznamy
  • ručně spojením vektorů vytvořit výše uvedené datové typy
  • výběry položek z výše uvedených datových typů
  • vytvořit prázdnou matici, pole, datovou tabulku, seznam a nakrmit je daty
  • přidání sloupců (a jiných objektů) do již existujících matic, polí, datových tabulek, seznamů
  • spojení datových tabulek podle definice
  • konverzi mezi maticí a datovou tabulkou
  • výběry z matic, polí, datových tabulek, seznamů
  • seřazení hodnot vektoru
  • vytvořit seznam
  • tvořit dotazy na složité seznamové struktury

Poznané funkce:

  • cbind() – spojuje vektory do matice po sloupcích; stejně tak je schopna slepit datové tabulky a matice
  • rbind() – spojuje vektory do matice po řádcích
  • t() – transponuje matici
  • matrix() – vytvoří matici
  • colnames() – pojmenování sloupců
  • rownames() – pojmenování řádků
  • array() – vytvoří pole
  • data.frame() – vytvoří datovou tabulku
  • rep() – příkaz pro opakování hodnoty (často při vytváření vektorů)
  • merge() – spojení datových tabulek
  • is.factor() – dotaz jestli je vektor faktor
  • summary() – volání sumárních dat z datové tabulky
  • as.data.frame() – vytvoří z matice datovou tabulku
  • as.matrix() – vytvoří z datové tabulky matici
  • sort() – seřadí hodnoty vektoru
  • list() – vytvoří seznam

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Podzemní voda na rašeliništích”. V R si funkcí c() vytvořte proměnné pH1 a pH2, které bude mít stejné hodnoty jako v dané XLS tabulce. Spojte je do jediné matice. Tuto matici převeďte na datovou tabulku. Získejte sumární informace za obě proměnné této matice.
  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. V R si ručně vytvořte obraz této tabulky.

 

4. Lekce: Histogram a sloupcové grafy

Histogram i sloupcové grafy lze MS Excel vytvořit vcelku jednoduše, ale naučme se je tvořit i v R (když už nic, tak vypadají lépe).

Data – vytvoříme si je sami

R soubor – zde

Co jsme se naučili:

  • vytvořit histogram s absolutními relativními počty
  • upravit histogram graficky
  • využít data z funkce histogram po úpravě k tvorbě obecného grafu
  • vytvořit kumulativní histogram
  • vytvořit a upravit sloupcový graf

Poznané funkce:

  • hist() – vytvoří histogram
  • cumsum() – přepočítá vektor do své kumulativní podoby
  • (hist()) – vypíše hodnoty histogramu
  • plot() – vykreslí podle zadaných hodnot graf
  • histogram() – tvorba histogramu v package lessR
  • barplot() – vytvoří sloupcový graf

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Podzemní voda na rašeliništích”. Převeďte ji do R. V R vytvořte histogram a kumulovaný histogram pro proměnnou pH1.
  • V postu Data si stáhněte XLS tabulku označenou jako “Tělesná teplota (ráno, v poledne, večer)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte) a vytvořte v R sloupcový graf srovnávající teplotu každého jedince v ráno, poledne a večer.

Cvičení 5

Úkol pro úvod 5. cvičení je zde

 

5. Lekce: Posouzení normality dat

Použití většiny parametrických metod je mimo jiné vázáno na předpoklad dat pocházejících ze základního souboru s normálním rozdělením. Tento předpoklad musíme posoudit.

Data – zde

R soubor – zde

Co jsme se naučili:

  • vytvořit q-q plot
  • vypočítat šikmost a špičatost
  • vypočítat Shapiro-Wilks test

Poznané funkce:

  • qqnorm() – vytvoří q-q graf
  • qqline() – do q-q grafu nakreslí přímku pro normální rozdělení
  • skewness() – vypočítá šikmost v package e1071
  • kurtosis() – vypočítá špičatost v package e1071
  • shapiro.test() – vypočítá Shapiro-Wilks test a vrátí hodnotu testu a jeho p

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Posuďte pomocí q-q grafu normalitu proměnné šířka zvlášť pro samce (=1) a samice (=2).
  • Použijte data z předchozího úkolu a vypočítejte hodnoty šikmosti a špičatosti pro šířku zvlášť pro samce (=1) a samice (=2).
  • Použijte data z předchozího úkolu a vypočítejte test normality Shapiro-Wilks testem pro šířku zvlášť pro samce (=1) a samice (=2).

 

Cvičení 6

Úkol pro úvod 6. cvičení je zde

 

6. Lekce: T-testy a F-test

Při používání základních parametrických testů už poznáte, že naučit se R v R Studio byl dobrý nápad, protože vše jde snadno zadáním jediného příkazu.

Data – zde

R soubor – zde

Co jsme se naučili:

  • vypočítat jednotlivé t-testy (jednovýběrový, párový, dvouvýběrový, oboustranný, jednostranný, s/bez rovnosti rozptylů)
  • vypočítat F-test

Poznané funkce:

  • t.test() – vypočítá t-testy
  • var.test() – vypočítá F-test

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte jednovýběrovým t-testem, jestli existuje rozdíl mezi průměrnou šířkou samce (=1) z daných měření a očekávanou šířkou 100.
  • V postu Data si stáhněte XLS tabulku označenou jako “Tělesná teplota (ráno, v poledne, večer)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte párovým t-testem, jestli se liší teplota jedince ráno a večer.
  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte párovým t-testem rozdíl v průměrech délky mezi samci a samicemi (1= samci, 2= samice), použijte oboustranný test a variantu pro rovnost rozptylů.
  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte F-testem rozdíl v rozptylech výšky mezi samci a samicemi (1= samci, 2= samice).

 

Po této lekci je mid-term exam!!!!!!!!!

Co se v něm může objevit?

  • výpočty charakteristik polohy a variability (průměr, medián, modus, rozptyl, směrodatná odchylka, kvartily, minimum, maximum, variační koeficient)
  • posouzení normality dat (šikmost, špičatost, Shapiro-Wilks test v R nebo Kolmogorov-Smirnov test v MS Excel)
  • testování hypotéz – t-testy, F test (výpočet jednovýběrového t-testu, párového t-testu, dvouvýběrového t-testu, F-testu)

Data budou zadána v R scriptu pomocí funkcí c(), pokud je k výpočtu třeba tabulka dat (například v případech počítání t-testů a F-testu), tak součástí zadání jsou i příkazy na vytvoření matice pomocí cbind() a tabulky dat as.data.frame(). Tedy tyto příkazy si nebudete tvořit sami, ale budete je mít už od nás napsané – jen je budete muset klávesou CTRL+Enter provést. Toto opatření je nutné z důvodu zjištěné nepřímé funkcionality instalace packages na počítačích v ZR-Z12 – problém, který jsme zažili po prvním spuštění RStudia se bude při každé aktualizaci opakovat a nemůžeme riskovat, že se to stane při zápočtu. Kdo by chtěl výpočty dělat v MS Excel, tak si bude muset čísla do sešitu překopírovat/přepsat.

Při mid-term testu budete mít k dispozici kromě souboru s daty i soubor se všemi šesti lekcemi R, který je zde.

 

7. Lekce: Testování rozdílů v četnostech – test dobré shody, Fisherův exaktní test

V této lekci se naučíte testovat výsledky výzkumů, jehož data jsou nominální, čili se naučíme přehled metod určených k testování četností.

Data – zde, část dat si vytvoříme sami

R soubor – zde (aktualizováno a doplněno 15.112018)

Co jsme se naučili:

  • počítat chí-kvadrát test dobré shody (jeden výběr oproti teoretickému rozdělení)
  • vytvořit kontingenční tabulku
  • vypočítat dvouvýběrový chí-kvadrát test
  • vypočítat Fisherův exaktní test
  • vypočítat Kolmogorov-Smirnov test
  • vytvořit z četnostních dat koláčový graf
  • doplnit k grafu legendu
  • vytvořit mozaikový graf z četností dvou kategoriálních proměnných

Poznané funkce:

  • table() – vytvoří kontingenční tabulku
  • chisq.test() – vypočítá chí-kvadrát testy
  • fisher.test() – vypočítá Fisherův exaktní test
  • ks.test() – vypočítá Kolmogorov-Smirnov test
  • pie() – vytvoří koláčový graf
  • legend() – vytvoří “legendu” ke grafu
  • mosaicplot() – vytvoří mozaikový graf

 

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Ostrorep – F(barva, trny)/M(přítomnost)”. Převeďte ji do R. Otestujte chí kvadrát testem, jestli se existuje vliv barvy samice na ochotu samců na páření. Poznámka: Aby šel výpočet v R udělat budete muset proměnné zadat jako as.factor.
  • Náhodným výběrem na zaplevelené zahradě jsme sebrali 8 rostlin Anagalis arvensis (drchnička rolní) – 7 rostlin mělo květy červené a jedna modré. Použijte Fisherova exaktního testu k rozhodnutí, jestli je poměr zastoupení červených a modrých květů 1:1.
  • Věkové zastoupení skotu v ČR v roce 2017 bylo: 193699 ks do 6 měsíců, 212989 ks ve věku 6-12 měsíců, 299249 ks ve věku 1-2 roky a 660426 ks ve věku nad 2 roky. Ve stejném období bylo v Jihočeském kraji v těchto kategoriích 27496 ks, 34433 ks, 43953 ks a 55362 ks. Použijte Kolmogorov-Smirnov testu k testování potenciální rozdílu mezi počty kusů skotu v Jihočeském kraji a ČR.

Cvičení 9

Úkol pro úvod 9. cvičení je zde (zadání aktualizováno 26.11.2018)

 

8. Lekce: Mann-Whitney test a Wilcoxon test (= testy pro dva výběry s ordinálními daty)

V této lekci se naučíte testovat výsledky výzkumů, jehož data jsou ordinální. Tyto testy jsou založeny na testování diferencí v pořadí.

Data – zde, část dat si vytvoříme sami

R soubor – zde (aktualizováno 26.11.2018)

Co jsme se naučili:

  • testovat hypotézy Mann-Whitney testem
  • testovat hypotézy Wilcoxon testem

Poznané funkce:

  • wilcox.test() – vypočítá M-W test a W test

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Tělesná teplota (ráno, v poledne, večer)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte Wilcoxonovým testem, jestli se liší teplota jedince ráno a večer.
  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte Mann-Whitney testem rozdíl v průměrech délky mezi samci a samicemi (1= samci, 2= samice), použijte oboustranný test a variantu pro rovnost rozptylů.

 

9. Lekce: One-way ANOVA, RMANOVA, Kruskal-Wallis test, Friedmanův test (= testy pro více výběrů a jeden faktor)

Tato obsáhlá lekce bude věnována problematice testování hypotéz, kde data obsahují více výběrů než dva a omezíme se na test jednoho faktoru (v případě “within” efektu to budou v podstatě faktory dva). Naučíme se používat větší množství packages a budeme i nuceni používat zadání a příkazů, kterým se věnujeme detailněji až v navazujícím kurzu.

Data – zde

R soubor – zde (soubor aktualizován 10.12.2018)

Co jsme se naučili:

  • testovat homogenitu variancí Leveneovým testem
  • testovat data, kdy máme k dispozici více nezávislých výběrů a vyvážený počet měření
  • používat Tukeyho a Dunnettův post-hoc testy
  • testovat více závislých výběrů
  • vše výše uvedené v parametrické i neparametrické variantě
  • čistě technicky jsme se naučili zadávat náhodné efekty a testovat nevyvážené modely

Poznané funkce:

  • leveneTest() – testuje homogenitu variancí (package car)
  • aov() – vypočítá test ANOVA pro vyvážená data (jedno i vícefaktorová ANOVA, fixed in random efekt)
  • summary() – vypíše výsledky uložených testů
  • TukeyHSD() – vypočítá Tukey HSD post-hoc test pro výsledky aov()
  • ggline() – vykreslí komplikované grafy z výsledků funkcí testů (package ggpubr)
  • glht() – umožňuje vypočítat různé druhy pos-hoc testů z výsledků funkcí testů (package multcomp)
  • cld() – získá informace z příkazu glht() a umožní jejich tisk do grafu (package multcomp)
  • lmer() – lineární model (my jsme jej použili jako ANOVA model) pro výpočet ANOVA na nevyvážených datech (package lme4)
  • anova() – vypočítá ANOVA z výsledku příkazu lmer() a dalších modelů
  • kruskal.test() – vypočítá Kruskal-Wallis test
  • pairwise.wilcox.test() – vypočítá post-hoc test pro Kruskal-Wallis test
  • posthoc.kruskal.nemenyi.test() – vypočítá Nemeyi post-hoc test pro Kruskal-Wallis test (package PMCMR)
  • friedman.test() – vypočítá Friedmanův test
  • posthoc.friedman.nemenyi.test() – vypočítá Nemeyi post-hoc test pro Friedmanův test (package PMCMR)

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Výška rostliny/(substrát, poloha)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte pomocí One-way ANOVA a Mann-Whitney testem s příslušnými post-hoc testy, jestli se liší výška rostliny podle typu substrátu (polohu nebereme v potaz).
  • V postu Data si stáhněte XLS tabulku označenou jako “Tělesná teplota (ráno, v poledne, večer)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte pomocí RMANOVA a Friedmanovým testem s příslušnými post-hoc testy, jestli se liší teplota jedince ráno, v poledne a večer.

 

Cvičení 11

Úkol pro úvod 11. cvičení je zde

 

10. Lekce: Kovariance a korelace

Tato a následující lekce už nejsou věnovány testováním rozdílů mezi výběry, ale souvislostem mezi proměnnými. V této lekci se naučíte pracovat se souvislostmi proměnným na základě kovariancí a korelačních koeficientů.

Data – zde

R soubor – zde

Co jsme se naučili:

  • vypočítat kovariační koeficienty a kovariační matici
  • vypočítat korelační koeficienty a korelační matici – Pearson, Spearman, Kendal
  • vizualizovat korelační matici
  • vypočítat parciální korelační koeficienty

Poznané funkce:

  • cov() – vypočítá kovariační koeficienty zadaných proměnných
  • cor() – vypočítá korelační koeficienty zadaných proměnných
  • cor.mtest() – vypočítá hodnotu p pro korelační koeficient (package corrplot)
  • corrplot() – vizualizace korelační matice (package corrplot)
  • pcor() – vypočítá parciální korelační koeficienty a jejich hodnotu p (package ppcor)

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Vypočítejte korelační matici Pearsonových korelačních koeficientů délky, výšky a šířky zvlášť pro samce (=1) a samice (=2). Určete hodnotu p pro každý korelační koeficient. Vypočítejte i kovariační matici.
  • V postu Data si stáhněte XLS tabulku označenou jako “Ostrorep – F(šířka, hmotnost)/M(biomasa)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Vypočítejte korelační matici Spearmanových korelačních koeficientů všech tří proměnných.

 

11. Lekce: Lineární regrese

V poslední lekci základního kurzu se v R Studiu naučíme ovládat lineární regresi jak jednoduchou i mnohonásobnou. Podíváme se tedy na případ, kdy na straně vysvětlujících proměnných je jejich větší počet a všechny použité proměnné jsou poměrové s normálním rozdělením – k dalším podmínkám viz text zde.

Data – zde

R soubor – zde

Co jsme se naučili:

  • vypočítat jednoduchou lineární regresi
  • regresní diagnostiku na grafech reziduálů
  • vypočítat mnohonásobnou lineární regresi
  • rozhodnout o rozdílech dvou kompetičních modelů
  • vyčítat stepwise regresi

Poznané funkce:

  • lm() – vestavěná funkce R pro výpočet lineárního modelu
  • abline() – vykreslí regresní přímku do xy grafu

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Ostrorep – F(šířka, hmotnost)/M(biomasa)”. Převeďte ji do R. Existuje závislost množství samců ostrorepa zavěšených při páření hmotnosti samice?
  • V postu Data si stáhněte XLS tabulku označenou jako “Regrese-vejce”. Převeďte ji do R. Identifikujte závislost objemu vajec na vzdálenosti hnízda od volné hladiny a od nejbližšího hnízda – vyberte nejlepší model.

 

Po této lekci je 2. část zápočtového testu!!!!!!!!

Co se v něm může objevit?

  • Chí kvadrát test, Fisherův exaktní test, Kolmogorov-Smirnov test
  • Mann-Whitney test, Wilcoxon test
  • One-way ANOVA, Tukey HSD post-hoc test, Dunnett post-hoc test, Kruskal-Wallis test s post-hoc testem, Fiedmanův test s post-hoc testem
  • kovariance, korelace (Pearson, Spearman)
  • jednoduchá lineární regrese, mnohonásobná lineární regrese

Data budou zadána v R scriptu pomocí funkcí c(), pokud je k výpočtu třeba tabulka dat, tak součástí zadání jsou i příkazy na vytvoření matice pomocí cbind() a tabulky dat as.data.frame(), popřípadě zadání faktoru as.factor(). Tedy tyto příkazy si nebudete tvořit sami, ale budete je mít už od nás napsané – jen je budete muset klávesou CTRL+Enter provést. Toto opatření je nutné z důvodu zjištěné nepřímé funkcionality instalace packages na počítačích v ZR-Z12 – problém, který jsme zažili po prvním spuštění RStudia se bude při každé aktualizaci opakovat a nemůžeme riskovat, že se to stane při zápočtu. Kdo by chtěl výpočty dělat v MS Excel, tak si bude muset čísla do sešitu překopírovat/přepsat.

Při 2. části zápočtu budete mít k dispozici kromě souboru s daty i soubor se všemi šesti lekcemi R (zde) a druhu část s dalšími pěti lekcemi (bude zde).

 

 

Další často používané funkce, které využijeme v navazujícím kurzu**

  • nic z toho není předmětem výuky ani zápočtu, ani zkoušky

TR1: vytvořený dummy variables z faktoru**

R script

  • syntaxe pro vytvoření nové tabulky z faktoru nástrojem package caret a následné spojení s původní tabulkou funkcí cbind()

 

 

Regionální projektování – semestrální práce ZS2018/2019

Téma: Projekt rozvoje zemědělských brownfieldů (bývalých areálů JZD) ve vybrané oblasti

Oblasti:

  • Členění území Jihočeského kraje do ORP a obcí je zde
  • Náhledy lokalizace areálů bývalých JZD jsou zde
  • Přístup k SHP vrstvám je zde

Zadání:

1. Na prvním cvičení/konzultaci si vyberte region pro zpracování (pokud si vyberete region, kde bude pracovat více studentek/studentů, pak se dohodneme na rozdělení obcí). Ve vybrané oblasti se nacházejí areály bývalých JZD, ke všem zjistěte současný způsob využití a identifikujte tak opuštěné a chátrající areály. POZNÁMKA: Pokud to je možné, identifikujte i původní využití (vzhledem k tomu, že je to složitá věc, ale důležitá pro vlastní projekt, bude počet získaných informací ohodnocen u zkoušky bonusovými body, kdo identifikuje nejvíce původních využití, získá u zkoušky +5 bodů, kdo se umístí na 2. místě získá + 4 body, kdo na 3. místě +3 body, kdo na 4. místě +2 body, kdo na 5. místě + 1 bod (při rovnostech v pořadí bude rozdáno celkem maximálně 15 bodů). Výstupem tohoto bodu bude tabulka v MS Excel. V ní vepište do prvního sloupce NR (= číslo daného areálu, které najdete v podkladové mapě nebo ve sloupci “nr” atributové tabulky) areálu a k němu do dalšího sloupce popište stávající využití. Pokud se jedná o rozsáhlý areál, tak popište využití jeho jednotlivých částí – identifikaci částí proveďte např pomocí světových stran a pod.  Pokud se Vám podaří zjistit původní využití, tak do dalšího sloupce uveďte i původní využití.

2. Vyberte z identifikovaných areálů jeden opuštěný a/nebo chátrající areál a vypracujte pro něj projekt regenerace. V projektu musíte uvést:

  • lokalizaci areálu
  • majitele pozemků a budov (podle údajů dostupných na cuzk.cz)
  • popis stávajícího stavu
  • výpis důležitých informací o možnostech využití areálu podle údajů územního plánu – především tedy způsob plánovaného využití a popis charakteru možnosti využití k územním plánům se dostanete zde: http://geoportal.kraj-jihocesky.gov.cz/gs/uzemni-plany-a-dalsi-nastroje-uzemniho-planovani/
  • cíl regenerace = popis cílového stavu a budoucí uživatelé včetně přínosu pro obec
  • způsob regenerace = popis etap a na ně navázaných prací jak cíle dosáhnout (stručně, jde o rámce nikoliv projektovou dokumentaci)
  • finanční rámec = odhad nákladů a identifikace potenciálních zdrojů financování včetně dotačních titulů

Odevzdání:

  • odevzdáváte tabulku (XLS nebo XLSX) doplněnou o informace uvedené v zadání bodu 1 – jméno souboru bude zahrnovat identifikaci oblasti a Vaše příjmení, termín je stanoven na 4.12.2018 mejlem na jnav@zf.jcu.cz
  • projekt regenerace brownfiledu podle bodu 2 zadání, termín je stanoven na 18.12.2018 mejlem na jnav@zf.jcu.cz

Regionální management – semestrální práce ZS 2018/2019

Zadání semestrální práce pro PÚPN

Téma: Budoucnost areálů bývalých JZD ve vybrané oblasti podle územních plánů

Oblasti:

  • Členění území Jihočeského kraje do ORP a obcí je zde
  • Náhledy lokalizace areálů bývalých JZD jsou zde
  • Přístup k SHP vrstvám je zde

Zadání:

1. Na první přednášce si vyberte region pro zpracování (pokud si vyberete region, kde bude pracovat více studentek/studentů, pak se s nimi dohodněte na rozdělení obcí).

2. Stáhněte si GIS vrstvu s příslušnou oblastí (pokud si vyberte region, kde bude pracovat více studentek/studentů, pak před další činností smažte všechny areály, které nebudete zpracovávat). POZNÁMKA: data jsou bez projekce, tak pracujte v EPSG:102067 S-JTSK Křovák EastNorth

3. Do atributové tabulky vrstvy vložte sloupec “kod_UP” (bez uvozovek) a zadejte mu vlastnost řetězec a 8 znaků, dále do atributové tabulky vložte sloupec “popis_UP”  (bez uvozovek) a zadejte mu vlastnost řetězec a 150 znaků.

4. Na Geoportálu Jihočeského kraje (http://geoportal.kraj-jihocesky.gov.cz/gs/uzemni-plany-a-dalsi-nastroje-uzemniho-planovani/) zadejte do vyhledávacího pole postupně názvy obcí z Vašeho regionu a zkopírujte si postupně adresy pro WMS služby územního plánu příslušných obcí.

Obrázek 1: Stav stránky po zadání obce (Příbraz) a kliknutí na odkaz WMS

5. Přes WMS službu v GIS software připojte postupně územní plány obcí Vašeho regionu.

Obrázek 2: Areál bývalého družstva v Příbrazi s podkladem ÚP

6. Pro všechny areály zadejte do sloupce “kod_UP” kód využití podle výkresu územního plánu – pokud má areál plánovaná využití různá (jak je tomu na obrázku 2), editujte nejprve areál, rozdělte ho nástrojem na dělení polygonů (podle linií vyznačených v ÚP) a pak vepište kód využití do příslušných částí areálu – v našem případě na obrázku 2 rozdělíte areál do tří částí a vepíšete do příslušných částí kódy – VZ (do severní části), P2-SV (do střední části) a SO (do jižní části).

7. V textové části pak dohledáte popis dané zkratky (u různých územních plánů se soubor s popisem jmenuje různě, ale nejčastěji to bude pojmenováno ÚP a pak k tomu bude dovětek “textová část” nebo, jako je tomu v případě Příbraze, (“výroková část”). Plochy, které nemají číslo, mají jasné využití VZ = zemědělská a lesnická výroba; SO = plochy smíšené obytné. Plochy, které jsou jakýmkoliv způsobem očíslované, je třeba pro jistotu dohledat v tabulce – P2 znamená, že je to plocha určená k přestavbě a je druhá v pořadí – přestavba má být na typ SV, což jsou plochy smíšené výrobní. Takže do sloupce “popis_UP” pro severní část areálu napíšete “zemědělská a lesnická výroba”(bez uvozovek), do střední části “plochy smíšené výrobní” (bez uvozovek) a do jižní části “plochy smíšené obytné” (bez uvozovek).

Odevzdání:

  • odevzdáváte vrstvu zemědělských areálů doplněnou o informace uvedené v zadání – jméno vrstvy bude stejné, jako na začátku, jen za rok 1989 napíšete svoje příjmení bez diakritiky, termín je stanoven na 4.12.2018 mejlem na jnav@zf.jcu.cz
  • na poslední přednášce sdělíte všem přítomným rozlohy a podíly ploch, které jsou určeny dále k zemědělské činnosti, které už aktuálně a ani do budoucna nebudou mít zemědělské využití a které jsou určeny k přestavbě

Zadání semestrální práce pro ostatní obory

Téma: Současné využití areálů bývalých JZD ve vybrané oblasti

Oblasti:

  • Členění území Jihočeského kraje do ORP a obcí je zde
  • Náhledy lokalizace areálů bývalých JZD jsou zde
  • Přístup k SHP vrstvám je zde (poslouží Vám, pokud umíte s GISy)

Zadání:

1. Na první přednášce/konzultaci si vyberte region pro zpracování (pokud si vyberete region, kde bude pracovat více studentek/studentů, pak se s nimi dohodněte na rozdělení obcí). Ve vybrané oblasti se nacházejí areály bývalých JZD, ke všem zjistěte současný způsob využití. Pokud to je možné identifikujte i původní využití.

2.  Do tabulky v MS Excel (kterou si sami vytvoříte) vepište do prvního sloupce NR (= číslo daného areálu, které najdete v podkladové mapě nebo ve sloupci “nr” atributové tabulky) areálu a k němu do dalšího sloupce popište stávající využití. Pokud se jedná o rozsáhlý areál, tak popište využití jeho jednotlivých částí – identifikaci částí proveďte např pomocí světových stran a pod.  Pokud se Vám podaří zjistit původní využití, tak do dalšího sloupce uveďte i původní využití.

Odevzdání:

  • odevzdáváte tabulku doplněnou o informace uvedené v zadání – jméno souboru bude zahrnovat identifikaci oblasti a Vaše příjmení, termín je stanoven na 10.12.2018 mejlem na jnav@zf.jcu.cz
  • na poslední přednášce (týká se jen PS) sdělíte všem počty areálů, které jsou využívány k zemědělským činnostem

 

Charakteristiky četností

Charakteristiky četností

Četnost znamená počet výskytu daného jevu (např. samců), hodnoty (např. kategorie “velmi mnoho” nebo teploty 0°C) nebo intervalu hodnot (např. pH 3,5-4) v souboru dat. Četnosti mohou být vyjádřeny dvěma způsoby: (1) absolutně = počet hodnot v každé kategorii (výstupem takovéhoto zpracování je obvykle tabulka), (2) relativně = počet hodnot v každé kategorii je vydělen celkovým počtem měření, tedy celkový součet je 1 nebo 100, pokud každý podíl vynásobíte stem – jde o procenta (těchto výstupů se volí pro konstrukci poměrových grafů – koláčové, skládané sloupcové nebo pruhové).

Základním nástrojem pro četnostní zpracování nominálních, ordinálních a dopředu kategorizovaných intervalových či poměrových dat je kontingenční tabulka. Ty mohou být jednorozměrné = pro jednu proměnnou (tabule) nebo dvou a více rozměrných = pro dvě nebo více proměnných (tabule) – v základním kurzu se naučíme hodnotit jen dvourozměrné tabulky.

Princip tvorby dvourozměrné kontingenční tabulky.

Vícerozměrná kontingenční tabulka.

Nejčastěji používáme dvě proměnné a rozdíly v nich pak testujeme pomocí testu dobré shody. Video základní práce s nominálními a ordinálními daty.

Práce s nominálními a ordinálními daty v kontingenční tabulce.

Pokud chceme stejným způsobem zpracovat intervalová a poměrová data, je z nich třeba nejprve vytvořit kategorie – viz tabule.

Kategorizace poměrových proměnných.

Možností jak toho v MS Excel dosáhnout je více. Nejjednodušeji ale zároveň nejpracnější je ruční nahrazování (takto to dělat nebudeme). Nejrychlejší postup je přes funkci ČETNOSTI (stačí si do volného sloupce stanovit hranice intervalů a MS Excel Vám vyhodí počty měření v jednotlivých intervalech). Druhou, komplikovanější možností je použití funkce COUNTIF, což je asi nejgeniálnější funkce MS Excel, která toho umí strašně mnoho a budete-li v budoucny někdy řešit komplikovanější úlohy, pak se bez ní neobejdete, nicméně zde by to znamenalo počítat četnosti postupně pro jednotlivé kategorie (funkce ČETNOSTI je v tomto případě elegantnější). Postup je zdlouhavý a my jej dělat nebudeme, pokud se to chcete naučit tak tady je externí videonávod a to, co potřebujete vědět, je ve stopáži 27:50 až 39:20. Obě výše uvedené funkce Vám však vrátí jednorozměrnou kontingenční tabulku, což bude často problém pro Vaše další výpočty. Vy budete nejčastěji chtít přiřadit kategorii ke konkrétnímu měření. Toho lze dosáhnout funkcí, se kterou jsme se seznámili v databázích, a to SVYHLEDAT, kde jako typ zadáte hodnotu 1 (jinak je postup stejný jako u spojování tabulek, POZOR!!! zadává se spodní hranice intervalu) – video.

Použití funkce SVYHLEDAT pro vytvoření kategorií.

Kontingenční tabulka má pro poměrová data ještě jednu výhodu. Jste pomocí ní schopni získávat velmi rychle charakteristiky polohy i variability pro Vámi zvolené kategorie – model využití je na videu.

Kategorizované charakteristiky polohy a variability v kontingenční tabulce.

 

Práce s tabulkami v R

Už v práci s tabulkami v MS Excel je jasné, že musíme dodržovat strukturu “databázové” tabulky. Jedině tak získáme kontingenční tabulku MS Excel a budeme schopni pracovat s tabulkami v R. V R to není zdaleka tak jednoduché, jako MS Excel, takže pro tvorbu tabulek, které budou vstupovat dále do analýz budete dělat v MS Excel, ale úpravu a tvorbu si chtě-nechtě musíme ukázat i v R – k tomu je určena naše  3. Lekce v R.

Histogram – grafické vyjádření četností

Druhým nástrojem pro posouzení četností je histogram. Jedná se o graf četností. Obvykle na ose x jsou kategorie a na osu y jsou vynášeny hodnoty četností. Stejně jako u kontingenčních tabulek, tyto četnosti mohou být vyjádřeny absolutně nebo relativní stupnici. Lze do jednoho histogramu vynést více proměnných (měřených na stejné stupnici a kategorizovaných do stejných intervalů či kategorií). Samozřejmě, že když se jedná o ordinální nebo kategorizovaná poměrová data, tak na ose x jsou kategorie řazeny obvykle vzestupně. Dalším způsobem vyjádření četností histogramem je tzv. kumulativní histogram. V něm jsou postupně načítány hodnoty předchozích k následujícím kategoriím.

Histogramů se také často používá, když chceme rychle okometricky posoudit, jaké rozložení naše hodnoty mají. K tomu se dostaneme u náhodných veličin.

Histogram v R

Vytvoření histogramu v R se děje pomocí funkce hist() nebo histogram() v package lessR.

 

Histogram v MS Excel**

Vytvoření histogramu v MS Excel není v základu možné. Lze k jeho vytvoření použít výše zmíněné funkcí četnosti COUNTIF. Ale optimální je využití kategorizace provedené přes SVYHLEDAT. Užití si ukažme na pokračování příkladu ke kategorizaci poměrové proměnné – video.

Vytvoření histogramu v MS Excel.

Další možností je využití vytvoření histogramu přes kartu Vložit – histogram nebo nástroje Histogram na kartě Analýza dat, ale k ní se ale dostaneme až časem.

Vytvoření kumulativního histogramu si ukážeme pokračováním z předchozího příkladu, které je na videu. Kumulativní relativní četnosti budeme potřebovat při výpočtech nutných k posouzení normality dat.

Vytvoření histogramu kumulativních četností.

Charakteristiky variability

Charakteristiky variability

Charakteristiky polohy nás informují o “průměrné” charakteristice souboru dat. Získaná data však obvykle obsahují i pozorování, která jsou od hodnoty “průměru” značně odlišná. Charakteristiky vnitřní odlišnosti dat jsou tak stejně důležité. K základním, definovaným na intervalových datech patří:

  • rozsah, což je oblast dat mezi hodnotami minimum (MIN) a maximum (MAX)
  • rozptyl neboli variance je průměrná hodnota čtverce (POWER) odchylky měření od průměru a počítá se jinak pro základní soubor (VAR.P) a výběrový soubor (VAR.S)
  • směrodatná odchylka je druhou odmocninou z rozptylu; jelikož se liší výpočet rozptylu pro základní a výběrový soubor, má MS Excel samostatné funkce pro výpočet směrodatné odchylky pro základní soubor (SMODCH.P) a výběrový soubor (SMODCH.VÝBĚR.S), pokud uvádíte průměr, pak byste k němu měli uvést i hodnotu jeho směrodatné odchylky, neboť ta je v jednotkách průměru
  • variační koeficient je podíl směrodatné odchylky a hodnoty průměru a používá se v případě, když chcete porovnat variabilitu dvou proměnných, které mají různé jednotky

Variability ordinální dat lze posoudit pomocí kvantilů odvozených od mediánu:

  • kvartily (QUARTIL) jsou odvozeny od mediánu a jsou to hodnoty, které oddělují nikoliv poloviny měření (jako je tomu o mediánu; medián = hranice 2. kvartilu), ale čtvrtiny
  • percentily (PERCENTIL) jsou taktéž odvozeninou od mediánu, ale dělí soubor na setiny pozorování, stejně tak se používají decily

Oblíbenou společnou grafickou vizualizací charakteristik polohy a variability je krabicový graf (box-plot). Podle typu dat zobrazuje různé z výše uvedených hodnot.

Přehled základnách typů box-plotů.

Krabicový graf v R

My využijeme situace, že MS Excel automatickou tvorbu klasického krabicového grafu v nabídce nemá, a naučíme se ovládat R (1. Lekce).

 

Krabicový graf v MS Excel**

MS Excel jednoduše sám “vyrobit”  krabicový graf neumí a je nutné si data sama/sám připravit. Nejjednodušší případ box-plotu, který zobrazuje bodem hodnotu mediánu, “krabicí” 1. a 3. kvartil a “vousy” minimální a maximální hodnotu. V tomto případě vycházíme ze sloupcového grafu, kde boxy jsou de facto částí sloupce podle 1. 2. a 3. kvartilu a “vousy” jsou konstruovány jako chybové úsečky. Z tohoto je zřejmé, že pro konstrukci takového box-plotu potřebujeme umět z dat vypočítat charakteristiky polohy a umět pracovat s grafy MS Excel. Výpočet potřebných údajů je na videu, stejně jako tvorba vlastního box-plotu na druhé části videa.

Výpočet potřebných údajů pro sestavení box-plotu (nějak mi tam ujel medián u veg3, ale to pro naše potřeby nevadí).

Vytvoření box-plotu ze sloupcového skládaného grafu.

Doma si můžete instalovat doplněk Real Statistics, kde je na tento základní případ nástroj BoxPlot – schopen je pracovat i se zápornými daty. “Pravé” box-ploty mohou označovat různé hodnoty (tabule) – k tomu ale budete muset využít jiný software než je MS Excel.

Charakteristiky polohy

Charakteristiky polohy

  • aritmetický průměr (PRŮMĚR), který je definován na intervalové stupnici, se vypočítá jako podíl součtu měřených hodnot (SUMA) a počtu měření (POČET)
  • medián (MEDIAN), který je definován na ordinální stupnici, je hodnotou, která dělí data do dvou skupin o stejném počtu měření
  • modus (MODE), který je definován na nominální stupnici, je nejčastěji se vyskytující hodnotou; modů může být v souboru více

MS Excel umí i některé další funkce, např:

  • TRIMMEAN, který počítá průměr po odečtení stanoveného procenta maximálních a minimálních měřených hodnot, využít jej tedy můžete, když předpokládáte, že Vaše měření obsahuje odlehlé hodnoty (tedy takové, které na většinu Vámi změřených dat nesedí a předpokládáte, že vznikly souhrou náhod, chybou přístroje, Vaší nepozorností, atp. – k detailnějšímu zamyšlení o odlehlých hodnotách viz lineární regrese).