Soubory pro R

Na tomto postu tvoříme učebnici práce v R.

Odkazy pro práci

Instalace

  • nejprve musíte stáhnout a nainstalovat R, kompletní přehled možností je zde
    • aktuální verze R pro Windows7-10 je zde (odkaz vede přímo na instalační soubor)
  • pak si musíte stáhnout a nainstalovat R Studio, kompletní přehled možností je zde
    • aktuální verze R Studia pro Windows7-10 je zde (odkaz vede přímo na instalační soubor)
  • případný problém s instalací packages je způsoben diakritikou v názvu Users
    • Problém je v tom, že instalaci packages provádí R Studio do adresářové struktury R/win-library/3.5, kterou vytváří sám ve složce Dokumenty, jež je pod složkou Users, mno a pokud se účet jmenuje třeba”uživatel”, tak si R Studio, jelikož v tomto případě nezná diakritiku, do adresářové struktury píše místo “ž” otazník a pak logicky není schopen tuto cestu najít, protože hledá v Users složku “u?ivatel”, která tam není, bo je tam “uživatel”. Pokud k tomu dojde, tak je třeba ručně zadat celou strukturu R/win-library/3.5 do Dokumentů v Průzkumníkovi nebo File Manageru, pak je třeba v R Studiu spustit instalaci prvního package oklikou přes Import Dataset – From Excel, který instaluje package automaticky a už sám vidí námi vytvořenou cestu – ten nainstaluje package readxl, mno a teprve pak už lze instalovat klasicky přes Packages-Install, protože software už ví, kde struktura adresářů R/win-library/3.5 je, a už je schopen do ní ukládat.
  • do setwd vkládejte na školních počítačích “C:/Users/uživatel/Documents/R”
  • cesta k souborům na flešce vy měla být “E:/R/nazevsouboru.xlsx”

Klávesové zkratky

R používá několik speciálních symbolů, jejichž klávesové zkratky je dobré znát nazpaměť:

  • CTRL + Enter: vykonávání příkazů ze zdrojového souboru skriptu do Console
  • Alt + 35: symbol dvojitého křížku pro vkládání poznámek ve skriptu
  • Alt + “dolní podtržítko”: vytvoření symbolu pro definování objektů, tedy “šipka”
  • Alt + 36: symbol dolaru pro výběry sloupců v datových tabulkách
  • Alt + 34: uvozovky
  • Alt + 126: vlnovka pro výběr skupin v proměnné

1. Lekce: Funkcionalita

Funkcionalitu si nejlépe ukážeme na konkrétním případě, kterým bude úkol na sestrojení box-plotu z dat uložených v MS Excel.

Data – zde

R soubor – zde

Co jsme se naučili:

  • otevřít a program a ukončit práci programu
  • poznali jsme aktivaci knihovny
  • uložení objektu
  • práce s nápovědou
  • práce s funkcemi
  • zadávání atributů a jejich funkčnost

Poznané funkce:

  • setwd() – nastavuje pracovní adresář
  • library() – aktivuje package
  • read_excel() – s cestou načte soubor s koncovkou XLS a XLSX
  • class() – identifikuje typ objektu
  • boxplot() – vytvoří z daného souboru box-plot podle nastavených atributů
  • help() – vypíše nápovědu k zadané funkci
  • c() – funkce pro definování vektorů
  • bxp() – funkce pro úpravu grafiky uloženého objektu z výstupu funkce boxplot()
  • (boxplot()) – vypíše číselné údaje z funkce boxplot()

 

2. Lekce: Práce s vektory

V této části se naučíme pracovat se základními objekty, kterými jsou vektory a od nich odvozené faktory (= kategoriálními vektory)

Data – budeme si je postupně sami tvořit v R

R soubor – zde

Co jsme se naučili:

  • operátory, a v rámci nich používat R jako kalkulačku
  • definování vektoru
  • spojování vektorů
  • mazání objektů
  • pojmenovávání prvků objektů
  • postup výběru prvků (jednoduché hranaté závorky)
  • funkce pro charakteristiky polohy a variability
  • že funkce lze kombinovat

Poznané funkce:

  • rm() – zmaže zadaný objekt
  • names() – pojmenovává prcky objektů (v pořadí prvků)
  • lenght() – vrací dálku vektoru
  • mean() – aritmetický průměr z číselného vektoru
  • median() – medián číselného vektoru
  • min() – minimální hodnota z číselného vektoru
  • max() – maximální hodnota z číselného vektoru
  • quantile() – kvantily z číselného vektoru
  • sd() – směrodatná odchylka z číselného vektoru
  • var() – rozptyl z číselného vektoru
  • sqrt() – druhá odmocnina z čísla

 

3. Lekce: Práce s “tabulkami”

Minule jsme se podívali na vektory, nyní se podíváme na práci s tabulkami, které budeme hodnotit častěji než samotné vektory/faktory

Data – budeme si je postupně sami tvořit v R

R soubor – zde

Co jsme se naučili:

  • poznali jsme typy “tabulek” = matice, pole, datové tabulky, seznamy
  • ručně spojením vektorů vytvořit výše uvedené datové typy
  • výběry položek z výše uvedených datových typů
  • vytvořit prázdnou matici, pole, datovou tabulku, seznam a nakrmit je daty
  • přidání sloupců (a jiných objektů) do již existujících matic, polí, datových tabulek, seznamů
  • spojení datových tabulek podle definice
  • konverzi mezi maticí a datovou tabulkou
  • výběry z matic, polí, datových tabulek, seznamů
  • seřazení hodnot vektoru
  • vytvořit seznam
  • tvořit dotazy na složité seznamové struktury

Poznané funkce:

  • cbind() – spojuje vektory do matice po sloupcích
  • rbind() – spojuje vektory do matice po řádcích
  • t() – transponuje matici
  • matrix() – vytvoří matici
  • colnames() – pojmenování sloupců
  • rownames() – pojmenování řádků
  • array() – vytvoří pole
  • data.frame() – vytvoří datovou tabulku
  • rep() – příkaz pro opakování hodnoty (často při vytváření vektorů)
  • merge() – spojení datových tabulek
  • is.factor() – dotaz jestli je vektor faktor
  • summary() – volání sumárních dat z datové tabulky
  • as.data.frame() – vytvoří z matice datovou tabulku
  • as.matrix() – vytvoří z datové tabulky matici
  • sort() – seřadí hodnoty vektoru
  • list() – vytvoří seznam

 

4. Lekce: Histogram a sloupcové grafy

Histogram i sloupcové grafy lze MS Excel vytvořit vcelku jednoduše, ale naučme se je tvořit i v R (když už nic, tak vypadají lépe).

Data – vytvoříme si je sami

R soubor – zde

Co jsme se naučili:

  • vytvořit histogram s absolutními relativními počty
  • upravit histogram graficky
  • využít data z funkce histogram po úpravě k tvorbě obecného grafu
  • vytvořit kumulativní histogram
  • vytvořit a upravit sloupcový graf

Poznané funkce:

  • hist() – vytvoří histogram
  • cumsum() – přepočítá vektor do své kumulativní podoby
  • (hist()) – vypíše hodnoty histogramu
  • plot() – vykreslí podle zadaných hodnot graf
  • histogram() – tvorba histogramu v package lessR
  • barplot() – vytvoří sloupcový graf

 

5. Lekce: Posouzení normality dat

Použití většiny parametrických metod je mimo jiné vázáno na předpoklad dat pocházejících ze základního souboru s normálním rozdělením. Tento předpoklad musíme posoudit.

Data – zde

R soubor – zde

Co jsme se naučili:

  • vytvořit q-q plot
  • vypočítat šikmost a špičatost
  • vypočítat Shapiro-Wilks test

Poznané funkce:

  • qqnorm() – vytvoří q-q graf
  • qqline() – do q-q grafu nakreslí přímku pro normální rozdělení
  • skewness() – vypočítá šikmost v package e1071
  • kurtosis() – vypočítá špičatost v package e1071
  • shapiro.test() – vypočítá Shapiro-Wilks test a vrátí hodnotu testu a jeho p

 

6. Lekce: T-testy a F-test

Při používání základních parametrických testů už poznáte, že naučit se R v R Studio byl dobrý nápad, protože vše jde snadno zadáním jediného příkazu.

Data – zde

R soubor – zde

Co jsme se naučili:

  • vypočítat jednotlivé t-testy (jednovýběrový, párový, dvouvýběrový, oboustranný, jednostranný, s/bez rovnosti rozptylů)
  • vypočítat F-test

Poznané funkce:

  • t.test() – vypočítá t-testy
  • var.test() – vypočítá F-test

 

Po této lekci je mid-term exam!!!!!!!!!