Zákon o podpoře regionálního rozvoje

Přednášená studijní literatura a prameny

  • Zákon č. 248/2000 Sb. Zákon o podpoře regionálního rozvoje
  • NAŘÍZENÍ EVROPSKÉHO PARLAMENTU A RADY (ES) č. 1082/2006 ze dne 5. července 2006 o evropském seskupení pro územní spolupráci (ESÚS)

Prezentace

VSRR5_zakon_o_regionalnim_rozvoji

Vybrané otázky a odpovědi

  • Zákon, který upravuje podmínky pro poskytování podpory regionálnímu rozvoji a s tím související působnost ústředních správních úřadů, krajů a obcí je . . . Zákon č. 248/2000 Sb. Zákon o podpoře regionálního rozvoje
  • Oblasti podpory regionálního rozvoje na úrovni České republiky podrobněji vymezuje? Strategie regionálního rozvoje České republiky

Financování územních samosprávných celků

Přednášená studijní literatura a prameny

  • Čmejrek J., Kopřiva R. (2007). Základy veřejné správy. ČZU, Praha.
  • Kadeřábková J., Wokoun R., Mates P. (ed.) (2008). Úvod do regionálních věd a veřejné správy. Vydavatelství a nakladatelství Aleš Čeněk, s.r.o., Plzeň.
  • Ministerstvo financí – RUD2019
  • Ministerstvo financí – Státní závěrečný účet 2017 – územní rozpočty
  • NAŘÍZENÍ EVROPSKÉHO PARLAMENTU A RADY (ES) č. 1082/2006 ze dne 5. července 2006 o evropském seskupení pro územní spolupráci
  • Zákon č. 565/1990 Sb. Zákon České národní rady o místních poplatcích
  • Zákon č. 128/2000 Sb. Zákon o obcích (obecní zřízení)
  • Zákon č. 129/2000 Sb. Zákon o krajích (krajské zřízení)
  • Zákon č. 250/2000 Sb. Zákon o rozpočtových pravidlech územních rozpočtů
  • Zákon č. 243/2000 Sb. Zákon o rozpočtovém určení výnosů některých daní územním samosprávným celkům a některým státním fondům (zákon o rozpočtovém určení daní)
  • Zákon č. 248/2000 Sb. Zákon o podpoře regionálního rozvoje
  • Zákon č. 23/2017 Sb. Zákon o pravidlech rozpočtové odpovědnosti

Prezentace

VSRR4_finance_USC

Vybrané otázky a odpovědi

  • Finanční hospodaření územních samosprávných celků se řídí . . . ročním rozpočtem a střednědobým výhledem rozpočtu
  • Střednědobý výhled rozpočtu územních samosprávných celků se obvykle sestavuje na dobu . . . 2-5 let
  • V příjmech obcí dlouhodobě dominují . . . daňové příjmy
  • Hlavním zdrojem finančních transferů (dotací) krajům je . . . MŠMT
  • Rozpočet územního samosprávného celku může být schodkový pouze pokud je jej možné uhradit tzv. návratnými zdroji nebo . . . finančními prostředky z minulých let
  • Proč je je zákonem stanoveno velké (a výrazně nepřehledné až komplikované) množství zdrojů rozpočtů obcí a krajů? Aby nedošlo při výpadku některého z nich k finančnímu kolapsu (samo)správy na úrovni obcí a krajů.

Reforma veřejné správy

Přednášená studijní literatura a prameny

  • Zákon č. 367/1990 Sb. Zákon České národní rady o obcích (obecní zřízení)
  • Zákon č. 425/1990 Sb. Zákon České národní rady o okresních úřadech, úpravě jejich působnosti a o některých dalších opatřeních s tím souvisejících
  • Ústavní zákon č. 347/1997 Sb. Ústavní zákon o vytvoření vyšších územních samosprávných celků a o změně ústavního zákona České národní rady č. 1/1993 Sb., Ústava České republiky
  • Zákon č. 128/2000 Sb. Zákon o obcích (obecní zřízení)
  • Zákon č. 129/2000 Sb. Zákon o krajích (krajské zřízení)
  • Zákon č. 314/2002 Sb. Zákon o stanovení obcí s pověřeným obecním úřadem a stanovení obcí s rozšířenou působností

Prezentace

VSRR3_reforma_verejne_spravy

Vybrané otázky a odpovědi

  • Zákonná moc v České socialistické republice existující v letech 1969-1990 byla v rukou . . . České národní rady
  • Moderní obecní a krajské zřízení (platné dosud) je v České republice uzákoněno od roku . . . 2000

Veřejná správa pro studium regionálního rozvoje


Přednášená studijní literatura a prameny

  • Ústava ČR
  • Zákon č. 89/2012 Sb. Zákon občanský zákoník
  • Zákon č. 500/2004 Sb. Zákon správní řád
  • Zákon č. 2/1969 Sb. Zákon České národní rady o zřízení ministerstev a jiných ústředních orgánů státní správy České socialistické republiky
  • Zákon č. 150/2002 Sb. Soudní řád správní

Prezentace

VSRR2_zaklady_verejne_spravy


Vybrané otázky a odpovědi

  • Působení státu ve veřejném zájmu a uskutečňování veřejné politiky státu jsou hlavní aktivity, které naplňují termín . . . veřejná správa
  • Zdrojem veškeré státní moci je podle Ústavy České republiky . . . lid
  • Samospráva územních samosprávných celků je v České republice zaručena v jakém dokumentu? Ústava České republiky
  • Státní moc slouží všem občanům a lze ji uplatňovat jen v jakých případech, v mezích a jakými způsoby? které stanoví zákon
  • Správní řízení je postup správního orgánu, jehož účelem je . . . vydání rozhodnutí
  • Základními územními samosprávnými celky České republiky jsou podle Ústavy ČR . . . obce

Asociační koeficienty

Základy: Podobnosti, nepodobnosti a vzdálenosti

Vstupním souborem pro vícerozměrné statistické metody jsou tabulky charakteru databáze, kdy na řádcích jsou jednotlivé případy (= objekty, jejich počet je značen n) a ve sloupcích jsou jednotlivé parametry (jejich počet je značen p). K dispozici je tedy n x p matice objektů a parametrů. Z ní je počítána asociační matice (= matice vztahů), kde v řádcích i sloupcích jsou jednotlivé parametry a v matici jsou na základě hodnot objektů počítané asociační koeficienty (Haruštiaková et al., 2012 kap. 4).

Asociační koeficienty proměnných

Základní asociační koeficienty proměnných jsme poznali v základní statistice – kovarianci, Pearsonův korelační koeficient, Spearmanův korelační koeficient.

Asociační koeficienty vzdálenosti objektů

Ty patří v mnohorozměrných analýzách k nejvýznamnějším. Jejich podstatou je skutečnost, že koeficient má maximální hodnotu dvou objektů, které jsou nejvíce odlišné a objekty identické mají vzdálenost nulovou. Podmínky uvádí Haruštiaková et al. (2012) na s. 16, zde je i jasný popis nejčastěji používané metriky vzdálenosti – Euklidovská metrika – na příkladu dvou proměnných. Její použití předpokládá standardizovaná vstupní data. Vzhledem k tomu, že je základem shlukových analýz, je jasný požadavek na standardizaci dat před využitím shlukové analýzy. Dále jsou uvedeny další metriky bojující s nedostatky euklidovské vzdálenosti.

Asociační koeficienty podobnosti objektů

Nejsou metrické = neplatí pro ně zásady uvedené na s. 16 (Haruštiaková et al., 2012) a nelze je přímo umístit v metrickém prostoru – nicméně je lze převést na vzdálenosti. Jejich základem je posouzení “shody” v hodnotách dosažených u jednotlivých proměnných (u většiny koeficientů platí, že je míra podobnosti je vlastně vyjádřením relativní shody). Koeficienty mohou být symetrické nebo nesymetrické – nesymetrické jsou založeny na předpokladu, že některé kombinace dosažených hodnot mají jinou váhu než ostatní – typicky duplicitní nulové hodnoty u srovnávaných objektů nejsou informací o podobnosti. Koeficienty byly vyvinuty primárně pro binární proměnné a následně byly určeny i jejich kvantitativní varianty – tabulky v kapitole 4 (Haruštiaková et al., 2012) jsou snad jasné.

Kejkle s daty

Transformace a metody “standardizace”

Transformace dat se provádí relativně velmi často, a to především ve dvou případech – buď potřebujeme “zlineárnit” závislosti proměnných (např. u lineární regrese) nebo častěji přiblížit rozdělení získaných dat normálnímu rozdělení (abychom mohli použít statistiky, které předpokládají normalitu v datech – např. u ANOVA). Přehled tří nejčastěji používaných transformací uvádí Lepš (1996, s. 99-102 a 113-116). Transformace dat ve STATISTICA je na videu a je podobná jako v práce v MS Excel.

 

Transformace dat ve STATISTICA.

 

Dalšími úpravami dat, které některé statistické metody vyžadují jsou centrování, standardizace a normalizace (Haruštiaková et al., 2012, kap. 2.2.2 a 2.2.3).

Například u mnohonásobné lineární regrese je jedno, jestli jsou jednotlivé vysvětlující proměnné na různých škálách (pH nabývá jiných absolutních hodnot než teplota nebo koncentrace iontů), nicméně u mnohorozměrných metod to “jedno” není (především to platí pro shlukovou analýzu) a jednotlivé proměnné je třeba převést na jednotkovou stupnici, tedy “zrelativnit” vlastní měřená data. Nejvýhodnějším postupem je tzv. standardizace směrodatnou odchylkou (Z-skóre), kdy od každé měřené hodnoty proměnné odečtu průměrnou hodnotu všech měření a tento rozdíl vydělím směrodatnou odchylku tohoto průměru. Ve výsledku pak získám proměnnou jejíž průměr je 0 a směrodatná odchylka 1. Pokud to provedu se všemi vysvětlujícími proměnnými, pak jsem je převedl na stejné měřítko. MS Excel na ni má samostatnou funkci – standardize. Standardizací ale existuje větší množství.

V některých případech však potřebuji, aby byly převedeny měřené proměnná na jednotné měřítko, ale výsledné hodnoty zůstaly kladné. Nejčastěji se tak děje pomocí lineární normalizace, jejímž výsledkem jsou hodnoty od 0 do 1. Používá se různých postupů – nejjednodušším je min-max normalizace označovaná i jako standardizace rozpětím:

xi’ = (xi – min(x1, . . . xn))/(max(x1, . . . xn) – min(x1, . . . xn))

Matematicky nejjednodušším převedením na relativní měřítko je centrování, které zahrnuje pouze odečtení průměru proměnné od konkrétní měřené hodnoty.

Komplikované je rozhodování o transformacích v mnohorozměrných analýzách, kdy vysvětlovanou proměnnou není jedna měřená charakteristika, ale druhové složení (Lepš et Šmialuer, 2000, kapitola 1.11.). POZOR – pokud v botanice používáte Braun-Blanquetovu stupnici, kterou kódujete 1 až 7 nebo 9, tak stupnice už v podstatě logaritmická je.

Chybějící data

Je obvyklé, že v měřeních máme nějaká data chybějící – prostě z nějakých příčin nebylo možné měření uskutečnit – respondent odmítl odpovědět, louže pro odebírání vody vyschla, zapomněl jsem doma metr. Nemělo by se to stát, ale co když se to stane? Možná řešení uvádí v přehledu Haruštiaková et al. (2012, kap. 2.2.1)

Soubory pro R

Na tomto postu tvoříme učebnici práce v R.

Odkazy pro práci

Instalace

  • nejprve musíte stáhnout a nainstalovat R, kompletní přehled možností je zde
    • aktuální verze R pro Windows7-10 (říjen 2019) je zde (odkaz vede přímo na instalační soubor)
  • pak si musíte stáhnout a nainstalovat R Studio, kompletní přehled možností je zde
    • aktuální verze R Studia pro Windows7-10 (říjen 2018) je zde (odkaz vede přímo na instalační soubor)
  • výše uvedené odkazy vedou na nejaktuálnější (v říjnu 2019) verze, ve škole na počítačích jsou však verze ze září 2018, proto ani některé věci budou jinak ve škole a doma, s tím ale nejsme schopni nic udělat 🙂
  • případný problém s instalací packages je způsoben diakritikou v názvu účtu v Users
    • Problém jsem našel v tom, že instalaci packages provádí R Studio do adresářové struktury R/win-library/3.5, kterou vytváří sám ve složce Dokumenty, jež je pod složkou Users, mno a pokud se účet jmenuje třeba”uživatel”, tak si R Studio, jelikož v tomto případě nezná diakritiku, do adresářové struktury píše místo “ž” otazník a pak logicky není schopen tuto cestu najít, protože hledá v Users složku “u?ivatel”, která tam není, bo je tam “uživatel”. Pokud k tomu dojde, tak je třeba ručně zadat celou strukturu R/win-library/3.5 do Dokumentů v Průzkumníkovi nebo File Manageru, pak je třeba v R Studiu spustit instalaci prvního package oklikou přes Import Dataset – From Excel, který instaluje package automaticky a už sám vidí námi vytvořenou cestu – ten nainstaluje package readxl, mno a teprve pak už lze instalovat klasicky přes Packages-Install, protože software už ví, kde struktura adresářů R/win-library/3.5 je, a už je schopen do ní ukládat.
  • R je freeware běžící na nejrůznějších systémech a skripty se mezi nimi dají tahat, ale přišli jsme na to, že například mezi Macy a W10 dochází k drobným odchylkám, které jsme ale rychle vyladili, tak to snad bude OK i nadále
  • do setwd vkládejte na školních počítačích “C:/Users/ucebna/Documents/R”
  • v našich materiálech je cesta “C:/Users/uživatel/Documents/R”, protože tak to bylo v roce 2018 a pro rok 2019 účet přejmenovali
  • cesta k souborům na flešce vy měla být “E:/R/nazevsouboru.xlsx, pokud je máte na počítači, pak je dávejte do R v Dokumenty, takže cesta bude “C:/Users/ucebna/Documents/R/nazevsouboru.xlsx

Klávesové zkratky

R používá několik speciálních symbolů, jejichž klávesové zkratky je dobré znát nazpaměť:

  • CTRL + Enter: vykonávání příkazů ze zdrojového souboru skriptu do Console
  • Alt + 35: symbol dvojitého křížku pro vkládání poznámek ve skriptu
  • Alt + “dolní podtržítko”: vytvoření symbolu pro definování objektů, tedy “šipka”
  • Alt + 36: symbol dolaru pro výběry sloupců v datových tabulkách
  • Alt + 34: uvozovky
  • Alt + 126: vlnovka pro výběr skupin v proměnné

1. Lekce: Funkcionalita

Funkcionalitu si nejlépe ukážeme na konkrétním případě, kterým bude úkol na sestrojení box-plotu z dat uložených v MS Excel.

Data – zde

R soubor – zde

Co jsme se naučili:

  • otevřít a program a ukončit práci programu
  • poznali jsme aktivaci knihovny
  • uložení objektu
  • práce s nápovědou
  • práce s funkcemi
  • zadávání atributů a jejich funkčnost

Poznané funkce:

  • setwd() – nastavuje pracovní adresář
  • library() – aktivuje package
  • read_excel() – s cestou načte soubor s koncovkou XLS a XLSX
  • class() – identifikuje typ objektu
  • boxplot() – vytvoří z daného souboru box-plot podle nastavených atributů
  • help() – vypíše nápovědu k zadané funkci
  • c() – funkce pro definování vektorů
  • bxp() – funkce pro úpravu grafiky uloženého objektu z výstupu funkce boxplot()
  • (boxplot()) – vypíše číselné údaje z funkce boxplot()

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”, v MS Excel si rozdělte data podle pohlaví (1= samci, 2= samice), v R vytvořte boxploty srovnávající variabilitu samců a samic postupně podle délky, výšky a šířky.

2. Lekce: Práce s vektory

V této části se naučíme pracovat se základními objekty, kterými jsou vektory a od nich odvozené faktory (= kategoriálními vektory)

Data – budeme si je postupně sami tvořit v R

R soubor – zde

Co jsme se naučili:

  • operátory a v rámci nich používat R jako kalkulačku
  • definování vektoru
  • spojování vektorů
  • mazání objektů
  • pojmenovávání prvků objektů
  • postup výběru prvků (jednoduché hranaté závorky)
  • funkce pro charakteristiky polohy a variability
  • že funkce lze kombinovat

Poznané funkce:

  • rm() – zmaže zadaný objekt
  • names() – pojmenovává prvky objektů (v pořadí prvků)
  • lenght() – vrací dálku vektoru
  • mean() – aritmetický průměr z číselného vektoru
  • median() – medián číselného vektoru
  • min() – minimální hodnota z číselného vektoru
  • max() – maximální hodnota z číselného vektoru
  • quantile() – kvantily z číselného vektoru
  • sd() – směrodatná odchylka z číselného vektoru
  • var() – rozptyl z číselného vektoru
  • sqrt() – druhá odmocnina z čísla

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Podzemní voda na rašeliništích”. Použijte One-way ANOVA a Kruskal-Wallisův test k testování
  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”, v MS Excel si rozdělte data podle pohlaví (1= samci, 2= samice), v R vypočítejte hodnoty průměru, mediánu,minima, maxima, dolního a horního kvartilu, směrodatné odchylky, rozptylu a variačního koeficientu délky jedinců zvlášť pro jednotlivá pohlaví.

3. Lekce: Práce s “tabulkami”

Minule jsme se podívali na vektory, nyní se podíváme na práci s tabulkami, které budeme hodnotit častěji než samotné vektory/faktory

Data – budeme si je postupně sami tvořit v R

R soubor – zde

Co jsme se naučili:

  • poznali jsme typy “tabulek” = matice, pole, datové tabulky, seznamy
  • ručně spojením vektorů vytvořit výše uvedené datové typy
  • výběry položek z výše uvedených datových typů
  • vytvořit prázdnou matici, pole, datovou tabulku, seznam a nakrmit je daty
  • přidání sloupců (a jiných objektů) do již existujících matic, polí, datových tabulek, seznamů
  • spojení datových tabulek podle definice
  • konverzi mezi maticí a datovou tabulkou
  • výběry z matic, polí, datových tabulek, seznamů
  • seřazení hodnot vektoru
  • vytvořit seznam
  • tvořit dotazy na složité seznamové struktury

Poznané funkce:

  • cbind() – spojuje vektory do matice po sloupcích; stejně tak je schopna slepit datové tabulky a matice
  • rbind() – spojuje vektory do matice po řádcích
  • t() – transponuje matici
  • matrix() – vytvoří matici
  • colnames() – pojmenování sloupců
  • rownames() – pojmenování řádků
  • array() – vytvoří pole
  • data.frame() – vytvoří datovou tabulku
  • rep() – příkaz pro opakování hodnoty (často při vytváření vektorů)
  • merge() – spojení datových tabulek
  • is.factor() – dotaz jestli je vektor faktor
  • summary() – volání sumárních dat z datové tabulky
  • as.data.frame() – vytvoří z matice datovou tabulku
  • as.matrix() – vytvoří z datové tabulky matici
  • sort() – seřadí hodnoty vektoru
  • list() – vytvoří seznam

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Podzemní voda na rašeliništích”. V R si funkcí c() vytvořte proměnné pH1 a pH2, které bude mít stejné hodnoty jako v dané XLS tabulce. Spojte je do jediné matice. Tuto matici převeďte na datovou tabulku. Získejte sumární informace za obě proměnné této matice.
  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. V R si ručně vytvořte obraz této tabulky.

4. Lekce: Histogram a sloupcové grafy

Histogram i sloupcové grafy lze MS Excel vytvořit vcelku jednoduše, ale naučme se je tvořit i v R (když už nic, tak vypadají lépe).

Data – vytvoříme si je sami

R soubor – zde

Co jsme se naučili:

  • vytvořit histogram s absolutními relativními počty
  • upravit histogram graficky
  • využít data z funkce histogram po úpravě k tvorbě obecného grafu
  • vytvořit kumulativní histogram
  • vytvořit a upravit sloupcový graf

Poznané funkce:

  • hist() – vytvoří histogram
  • cumsum() – přepočítá vektor do své kumulativní podoby
  • (hist()) – vypíše hodnoty histogramu
  • plot() – vykreslí podle zadaných hodnot graf
  • histogram() – tvorba histogramu v package lessR
  • barplot() – vytvoří sloupcový graf

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Podzemní voda na rašeliništích”. Převeďte ji do R. V R vytvořte histogram a kumulovaný histogram pro proměnnou pH1.
  • V postu Data si stáhněte XLS tabulku označenou jako “Tělesná teplota (ráno, v poledne, večer)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte) a vytvořte v R sloupcový graf srovnávající teplotu každého jedince v ráno, poledne a večer.

Cvičení 5

Úkol pro úvod 5. cvičení je zde

5. Lekce: Posouzení normality dat

Použití většiny parametrických metod je mimo jiné vázáno na předpoklad dat pocházejících ze základního souboru s normálním rozdělením. Tento předpoklad musíme posoudit.

Data – zde

R soubor – zde

Co jsme se naučili:

  • vytvořit q-q plot
  • vypočítat šikmost a špičatost
  • vypočítat Shapiro-Wilks test

Poznané funkce:

  • qqnorm() – vytvoří q-q graf
  • qqline() – do q-q grafu nakreslí přímku pro normální rozdělení
  • skewness() – vypočítá šikmost v package e1071
  • kurtosis() – vypočítá špičatost v package e1071
  • shapiro.test() – vypočítá Shapiro-Wilks test a vrátí hodnotu testu a jeho p

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Posuďte pomocí q-q grafu normalitu proměnné šířka zvlášť pro samce (=1) a samice (=2).
  • Použijte data z předchozího úkolu a vypočítejte hodnoty šikmosti a špičatosti pro šířku zvlášť pro samce (=1) a samice (=2).
  • Použijte data z předchozího úkolu a vypočítejte test normality Shapiro-Wilks testem pro šířku zvlášť pro samce (=1) a samice (=2).

Cvičení 6

Úkol pro úvod 6. cvičení je zde

6. Lekce: T-testy a F-test

Při používání základních parametrických testů už poznáte, že naučit se R v R Studio byl dobrý nápad, protože vše jde snadno zadáním jediného příkazu.

Data – zde

R soubor – zde

Co jsme se naučili:

  • vypočítat jednotlivé t-testy (jednovýběrový, párový, dvouvýběrový, oboustranný, jednostranný, s/bez rovnosti rozptylů)
  • vypočítat F-test

Poznané funkce:

  • t.test() – vypočítá t-testy
  • var.test() – vypočítá F-test

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte jednovýběrovým t-testem, jestli existuje rozdíl mezi průměrnou šířkou samce (=1) z daných měření a očekávanou šířkou 100.
  • V postu Data si stáhněte XLS tabulku označenou jako “Tělesná teplota (ráno, v poledne, večer)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte párovým t-testem, jestli se liší teplota jedince ráno a večer.
  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte párovým t-testem rozdíl v průměrech délky mezi samci a samicemi (1= samci, 2= samice), použijte oboustranný test a variantu pro rovnost rozptylů.
  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte F-testem rozdíl v rozptylech výšky mezi samci a samicemi (1= samci, 2= samice).

Po této lekci je mid-term exam!!!!!!!!!

Co se v něm může objevit?

  • výpočty charakteristik polohy a variability (průměr, medián, modus, rozptyl, směrodatná odchylka, kvartily, minimum, maximum, variační koeficient)
  • posouzení normality dat (šikmost, špičatost, Shapiro-Wilks test v R nebo Kolmogorov-Smirnov test v MS Excel)
  • testování hypotéz – t-testy, F test (výpočet jednovýběrového t-testu, párového t-testu, dvouvýběrového t-testu, F-testu)

Data budou zadána v R scriptu pomocí funkcí c(), pokud je k výpočtu třeba tabulka dat (například v případech počítání t-testů a F-testu), tak součástí zadání jsou i příkazy na vytvoření matice pomocí cbind() a tabulky dat as.data.frame(). Tedy tyto příkazy si nebudete tvořit sami, ale budete je mít už od nás napsané – jen je budete muset klávesou CTRL+Enter provést. Toto opatření je nutné z důvodu zjištěné nepřímé funkcionality instalace packages na počítačích v ZR-Z12 – problém, který jsme zažili po prvním spuštění RStudia se bude při každé aktualizaci opakovat a nemůžeme riskovat, že se to stane při zápočtu. Kdo by chtěl výpočty dělat v MS Excel, tak si bude muset čísla do sešitu překopírovat/přepsat.

Při mid-term testu budete mít k dispozici kromě souboru s daty i soubor se všemi šesti lekcemi R, který je zde.

7. Lekce: Testování rozdílů v četnostech – test dobré shody, Fisherův exaktní test

V této lekci se naučíte testovat výsledky výzkumů, jehož data jsou nominální, čili se naučíme přehled metod určených k testování četností.

Data – zde, část dat si vytvoříme sami

R soubor – zde (aktualizováno a doplněno 15.112018)

Co jsme se naučili:

  • počítat chí-kvadrát test dobré shody (jeden výběr oproti teoretickému rozdělení)
  • vytvořit kontingenční tabulku
  • vypočítat dvouvýběrový chí-kvadrát test
  • vypočítat Fisherův exaktní test
  • vypočítat Kolmogorov-Smirnov test
  • vytvořit z četnostních dat koláčový graf
  • doplnit k grafu legendu
  • vytvořit mozaikový graf z četností dvou kategoriálních proměnných

Poznané funkce:

  • table() – vytvoří kontingenční tabulku
  • chisq.test() – vypočítá chí-kvadrát testy
  • fisher.test() – vypočítá Fisherův exaktní test
  • ks.test() – vypočítá Kolmogorov-Smirnov test
  • pie() – vytvoří koláčový graf
  • legend() – vytvoří “legendu” ke grafu
  • mosaicplot() – vytvoří mozaikový graf

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Ostrorep – F(barva, trny)/M(přítomnost)”. Převeďte ji do R. Otestujte chí kvadrát testem, jestli se existuje vliv barvy samice na ochotu samců na páření. Poznámka: Aby šel výpočet v R udělat budete muset proměnné zadat jako as.factor.
  • Náhodným výběrem na zaplevelené zahradě jsme sebrali 8 rostlin Anagalis arvensis (drchnička rolní) – 7 rostlin mělo květy červené a jedna modré. Použijte Fisherova exaktního testu k rozhodnutí, jestli je poměr zastoupení červených a modrých květů 1:1.
  • Věkové zastoupení skotu v ČR v roce 2017 bylo: 193699 ks do 6 měsíců, 212989 ks ve věku 6-12 měsíců, 299249 ks ve věku 1-2 roky a 660426 ks ve věku nad 2 roky. Ve stejném období bylo v Jihočeském kraji v těchto kategoriích 27496 ks, 34433 ks, 43953 ks a 55362 ks. Použijte Kolmogorov-Smirnov testu k testování potenciální rozdílu mezi počty kusů skotu v Jihočeském kraji a ČR.

Cvičení 9

Úkol pro úvod 9. cvičení je zde

8. Lekce: Mann-Whitney test a Wilcoxon test (= testy pro dva výběry s ordinálními daty)

V této lekci se naučíte testovat výsledky výzkumů, jehož data jsou ordinální. Tyto testy jsou založeny na testování diferencí v pořadí.

Data – zde, část dat si vytvoříme sami

R soubor – zde

Co jsme se naučili:

  • testovat hypotézy Mann-Whitney testem
  • testovat hypotézy Wilcoxon testem

Poznané funkce:

  • wilcox.test() – vypočítá M-W test a W test

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Tělesná teplota (ráno, v poledne, večer)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte Wilcoxonovým testem, jestli se liší teplota jedince ráno a večer.
  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte Mann-Whitney testem rozdíl v průměrech délky mezi samci a samicemi (1= samci, 2= samice), použijte oboustranný test a variantu pro rovnost rozptylů.

9. Lekce: One-way ANOVA, RMANOVA, Kruskal-Wallis test, Friedmanův test (= testy pro více výběrů a jeden faktor)

Tato obsáhlá lekce bude věnována problematice testování hypotéz, kde data obsahují více výběrů než dva a omezíme se na test jednoho faktoru (v případě “within” efektu to budou v podstatě faktory dva). Naučíme se používat větší množství packages a budeme i nuceni používat zadání a příkazů, kterým se věnujeme detailněji až v navazujícím kurzu.

Data – zde

R soubor – zde

Co jsme se naučili:

  • testovat homogenitu variancí Leveneovým testem
  • testovat data, kdy máme k dispozici více nezávislých výběrů a vyvážený počet měření
  • používat Tukeyho a Dunnettův post-hoc testy
  • testovat více závislých výběrů
  • vše výše uvedené v parametrické i neparametrické variantě
  • čistě technicky jsme se naučili zadávat náhodné efekty a testovat nevyvážené modely

Poznané funkce:

  • leveneTest() – testuje homogenitu variancí (package car)
  • aov() – vypočítá test ANOVA pro vyvážená data (jedno i vícefaktorová ANOVA, fixed in random efekt)
  • summary() – vypíše výsledky uložených testů
  • TukeyHSD() – vypočítá Tukey HSD post-hoc test pro výsledky aov()
  • ggline() – vykreslí komplikované grafy z výsledků funkcí testů (package ggpubr)
  • glht() – umožňuje vypočítat různé druhy pos-hoc testů z výsledků funkcí testů (package multcomp)
  • cld() – získá informace z příkazu glht() a umožní jejich tisk do grafu (package multcomp)
  • lmer() – lineární model (my jsme jej použili jako ANOVA model) pro výpočet ANOVA na nevyvážených datech (package lme4)
  • anova() – vypočítá ANOVA z výsledku příkazu lmer() a dalších modelů
  • kruskal.test() – vypočítá Kruskal-Wallis test
  • pairwise.wilcox.test() – vypočítá post-hoc test pro Kruskal-Wallis test
  • posthoc.kruskal.nemenyi.test() – vypočítá Nemeyi post-hoc test pro Kruskal-Wallis test (package PMCMR)
  • friedman.test() – vypočítá Friedmanův test
  • posthoc.friedman.nemenyi.test() – vypočítá Nemeyi post-hoc test pro Friedmanův test (package PMCMR)

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Výška rostliny/(substrát, poloha)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte pomocí One-way ANOVA a Mann-Whitney testem s příslušnými post-hoc testy, jestli se liší výška rostliny podle typu substrátu (polohu nebereme v potaz).
  • V postu Data si stáhněte XLS tabulku označenou jako “Tělesná teplota (ráno, v poledne, večer)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Otestujte pomocí RMANOVA a Friedmanovým testem s příslušnými post-hoc testy, jestli se liší teplota jedince ráno, v poledne a večer.

Cvičení 11

Úkol pro úvod 11. cvičení je zde

10. Lekce: Kovariance a korelace

Tato a následující lekce už nejsou věnovány testováním rozdílů mezi výběry, ale souvislostem mezi proměnnými. V této lekci se naučíte pracovat se souvislostmi proměnným na základě kovariancí a korelačních koeficientů.

Data – zde

R soubor – zde

Co jsme se naučili:

  • vypočítat kovariační koeficienty a kovariační matici
  • vypočítat korelační koeficienty a korelační matici – Pearson, Spearman, Kendal
  • vizualizovat korelační matici
  • vypočítat parciální korelační koeficienty

Poznané funkce:

  • cov() – vypočítá kovariační koeficienty zadaných proměnných
  • cor() – vypočítá korelační koeficienty zadaných proměnných
  • cor.mtest() – vypočítá hodnotu p pro korelační koeficient (package corrplot)
  • corrplot() – vizualizace korelační matice (package corrplot)
  • pcor() – vypočítá parciální korelační koeficienty a jejich hodnotu p (package ppcor)

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Pohlaví/(délka, výška, šířka)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Vypočítejte korelační matici Pearsonových korelačních koeficientů délky, výšky a šířky zvlášť pro samce (=1) a samice (=2). Určete hodnotu p pro každý korelační koeficient. Vypočítejte i kovariační matici.
  • V postu Data si stáhněte XLS tabulku označenou jako “Ostrorep – F(šířka, hmotnost)/M(biomasa)”. Převeďte ji do R (popřípadě si ji nejprve V MS Excel upravte). Vypočítejte korelační matici Spearmanových korelačních koeficientů všech tří proměnných.

11. Lekce: Lineární regrese

V poslední lekci základního kurzu se v R Studiu naučíme ovládat lineární regresi jak jednoduchou i mnohonásobnou. Podíváme se tedy na případ, kdy na straně vysvětlujících proměnných je jejich větší počet a všechny použité proměnné jsou poměrové s normálním rozdělením – k dalším podmínkám viz text zde.

Data – zde

R soubor – zde

Co jsme se naučili:

  • vypočítat jednoduchou lineární regresi
  • regresní diagnostiku na grafech reziduálů
  • vypočítat mnohonásobnou lineární regresi
  • rozhodnout o rozdílech dvou kompetičních modelů
  • vyčítat stepwise regresi

Poznané funkce:

  • lm() – vestavěná funkce R pro výpočet lineárního modelu
  • abline() – vykreslí regresní přímku do xy grafu

Samostatná páce pro zopakování:

  • V postu Data si stáhněte XLS tabulku označenou jako “Ostrorep – F(šířka, hmotnost)/M(biomasa)”. Převeďte ji do R. Existuje závislost množství samců ostrorepa zavěšených při páření hmotnosti samice?
  • V postu Data si stáhněte XLS tabulku označenou jako “Regrese-vejce”. Převeďte ji do R. Identifikujte závislost objemu vajec na vzdálenosti hnízda od volné hladiny a od nejbližšího hnízda – vyberte nejlepší model.

Po této lekci je 2. část zápočtového testu!!!!!!!!

Co se v něm může objevit?

  • Chí kvadrát test, Fisherův exaktní test, Kolmogorov-Smirnov test
  • Mann-Whitney test, Wilcoxon test
  • One-way ANOVA, Tukey HSD post-hoc test, Dunnett post-hoc test, Kruskal-Wallis test s post-hoc testem, Fiedmanův test s post-hoc testem
  • kovariance, korelace (Pearson, Spearman)
  • jednoduchá lineární regrese, mnohonásobná lineární regrese

Data budou zadána v R scriptu pomocí funkcí c(), pokud je k výpočtu třeba tabulka dat, tak součástí zadání jsou i příkazy na vytvoření matice pomocí cbind() a tabulky dat as.data.frame(), popřípadě zadání faktoru as.factor(). Tedy tyto příkazy si nebudete tvořit sami, ale budete je mít už od nás napsané – jen je budete muset klávesou CTRL+Enter provést. Toto opatření je nutné z důvodu zjištěné nepřímé funkcionality instalace packages na počítačích v ZR-Z12 – problém, který jsme zažili po prvním spuštění RStudia se bude při každé aktualizaci opakovat a nemůžeme riskovat, že se to stane při zápočtu. Kdo by chtěl výpočty dělat v MS Excel, tak si bude muset čísla do sešitu překopírovat/přepsat.

Při 2. části zápočtu budete mít k dispozici kromě souboru s daty i soubor s prvními šesti lekcemi R (zde) a druhu část s dalšími pěti lekcemi (zde).

Další často používané funkce, které využijeme v navazujícím kurzu**

  • nic z toho není předmětem výuky, ni zápočtu, ni zkoušky

TR1: vytvoření dummy variables z faktoru**

R script

  • syntaxe pro vytvoření nové tabulky z faktoru nástrojem package caret a následné spojení s původní tabulkou funkcí cbind()

Charakteristiky četností

Charakteristiky četností

Četnost znamená počet výskytu daného jevu (např. samců), hodnoty (např. kategorie “velmi mnoho” nebo teploty 0°C) nebo intervalu hodnot (např. pH 3,5-4) v souboru dat. Četnosti mohou být vyjádřeny dvěma způsoby: (1) absolutně = počet hodnot v každé kategorii (výstupem takovéhoto zpracování je obvykle tabulka), (2) relativně = počet hodnot v každé kategorii je vydělen celkovým počtem měření, tedy celkový součet je 1 nebo 100, pokud každý podíl vynásobíte stem – jde o procenta (těchto výstupů se volí pro konstrukci poměrových grafů – koláčové, skládané sloupcové nebo pruhové).

Základním nástrojem pro četnostní zpracování nominálních, ordinálních a dopředu kategorizovaných intervalových či poměrových dat je kontingenční tabulka. Ty mohou být jednorozměrné = pro jednu proměnnou (tabule) nebo dvou a více rozměrných = pro dvě nebo více proměnných (tabule) – v základním kurzu se naučíme hodnotit jen dvourozměrné tabulky.

Princip tvorby dvourozměrné kontingenční tabulky.

Vícerozměrná kontingenční tabulka.

Nejčastěji používáme dvě proměnné a rozdíly v nich pak testujeme pomocí testu dobré shody. Video základní práce s nominálními a ordinálními daty.

Práce s nominálními a ordinálními daty v kontingenční tabulce.

Pokud chceme stejným způsobem zpracovat intervalová a poměrová data, je z nich třeba nejprve vytvořit kategorie – viz tabule.

Kategorizace poměrových proměnných.

Možností jak toho v MS Excel dosáhnout je více. Nejjednodušeji ale zároveň nejpracnější je ruční nahrazování (takto to dělat nebudeme). Nejrychlejší postup je přes funkci ČETNOSTI (stačí si do volného sloupce stanovit hranice intervalů a MS Excel Vám vyhodí počty měření v jednotlivých intervalech). Druhou, komplikovanější možností je použití funkce COUNTIF, což je asi nejgeniálnější funkce MS Excel, která toho umí strašně mnoho a budete-li v budoucny někdy řešit komplikovanější úlohy, pak se bez ní neobejdete, nicméně zde by to znamenalo počítat četnosti postupně pro jednotlivé kategorie (funkce ČETNOSTI je v tomto případě elegantnější). Postup je zdlouhavý a my jej dělat nebudeme, pokud se to chcete naučit tak tady je externí videonávod a to, co potřebujete vědět, je ve stopáži 27:50 až 39:20. Obě výše uvedené funkce Vám však vrátí jednorozměrnou kontingenční tabulku, což bude často problém pro Vaše další výpočty. Vy budete nejčastěji chtít přiřadit kategorii ke konkrétnímu měření. Toho lze dosáhnout funkcí, se kterou jsme se seznámili v databázích, a to SVYHLEDAT, kde jako typ zadáte hodnotu 1 (jinak je postup stejný jako u spojování tabulek, POZOR!!! zadává se spodní hranice intervalu) – video.

Použití funkce SVYHLEDAT pro vytvoření kategorií.

Kontingenční tabulka má pro poměrová data ještě jednu výhodu. Jste pomocí ní schopni získávat velmi rychle charakteristiky polohy i variability pro Vámi zvolené kategorie – model využití je na videu.

Kategorizované charakteristiky polohy a variability v kontingenční tabulce.

 

Práce s tabulkami v R

Už v práci s tabulkami v MS Excel je jasné, že musíme dodržovat strukturu “databázové” tabulky. Jedině tak získáme kontingenční tabulku MS Excel a budeme schopni pracovat s tabulkami v R. V R to není zdaleka tak jednoduché, jako MS Excel, takže pro tvorbu tabulek, které budou vstupovat dále do analýz budete dělat v MS Excel, ale úpravu a tvorbu si chtě-nechtě musíme ukázat i v R – k tomu je určena naše  3. Lekce v R.

Histogram – grafické vyjádření četností

Druhým nástrojem pro posouzení četností je histogram. Jedná se o graf četností. Obvykle na ose x jsou kategorie a na osu y jsou vynášeny hodnoty četností. Stejně jako u kontingenčních tabulek, tyto četnosti mohou být vyjádřeny absolutně nebo relativní stupnici. Lze do jednoho histogramu vynést více proměnných (měřených na stejné stupnici a kategorizovaných do stejných intervalů či kategorií). Samozřejmě, že když se jedná o ordinální nebo kategorizovaná poměrová data, tak na ose x jsou kategorie řazeny obvykle vzestupně. Dalším způsobem vyjádření četností histogramem je tzv. kumulativní histogram. V něm jsou postupně načítány hodnoty předchozích k následujícím kategoriím.

Histogramů se také často používá, když chceme rychle okometricky posoudit, jaké rozložení naše hodnoty mají. K tomu se dostaneme u náhodných veličin.

Histogram v R

Vytvoření histogramu v R se děje pomocí funkce hist() nebo histogram() v package lessR.

 

Histogram v MS Excel**

Vytvoření histogramu v MS Excel není v základu možné. Lze k jeho vytvoření použít výše zmíněné funkcí četnosti COUNTIF. Ale optimální je využití kategorizace provedené přes SVYHLEDAT. Užití si ukažme na pokračování příkladu ke kategorizaci poměrové proměnné – video.

Vytvoření histogramu v MS Excel.

Další možností je využití vytvoření histogramu přes kartu Vložit – histogram nebo nástroje Histogram na kartě Analýza dat, ale k ní se ale dostaneme až časem.

Vytvoření kumulativního histogramu si ukážeme pokračováním z předchozího příkladu, které je na videu. Kumulativní relativní četnosti budeme potřebovat při výpočtech nutných k posouzení normality dat.

Vytvoření histogramu kumulativních četností.