Základní statistika

Cílem těchto stránek je poskytnout studentkám a studentům vstupní informace za základů problematiky vyhodnocování kvantitativních dat. Představeny zde jsou stěžejní koncepty jednorozměrné analýzy dat s procvičováním praktických analytických postupů při řešení dílčích úloh s využitím MS Excel a R.

Pokud byste potřebovali řešit složitější úlohy, tak jejich potenciální řešení lze pomocí informací, které jsem přesunuli sem: Rozšiřující statistika. Řešení složitějších věcí postupně doplňujeme do učebnice R.

Jistou dobu byl tento materiál součástí výuky, pro niž byl povinnou učebnicí tento materiál, tedy část tohoto webu worldofplants.net věnovaná základnímu kurzu analýzy dat. Pokud potřebujete tištěný materiál, tak nejvýhodnější je použít skripta Lepš, J. (1996). Biostatistika. BF JU v Č.B. Ta je Vám dostupná v dostatečném množství v univerzitní knihovně (nebo ke stažení v elektronické podobě je zde). V roce 2014 vyšla tato učebnice v novém vydání, už s příklady řešení úloh ve STATISTICA, v roce 2016 vyšla jako kniha s výpočty ve STATISTICA a R.

V úvodních hodinách se kromě teoretického představení problému zpracování dat budeme věnovat ovládání programů, které budeme v kurzu používat, tedy MS Excel a R.

MS Excel budeme používat jelikož se jedná o modelový software typu tabulkového procesoru, ve kterém lze triviálně data vkládat a upravovat (ostatní operační systémy pak mají podobné software, jejichž ovládání je analogické MS Excel), předpokládá se, že každý s tímto software nebo s podobným tabulkovým procesorem již pracoval. Pokud s ním neumíte dělat, nemělo by to vadit, ale pro jistotu – základní tutoriál je tady, podobně můžete použít třeba i tohle. U části metod budeme v MS Excel potřebovat nainstalovat doplňky a zobrazit kartu Vývojář. My budeme MS Excel používat především pro vkládání a přípravu dat.

R je aktuálně nejrozšířenější plně free software určený pro analýzu dat. Naučíme se jeho ovládání a práci se základními statistickými metodami. Vybrán byl z důvodu plné volnosti jeho použití a dostupnosti na všech hlavním systémových platformách. Nebudeme se učit programovat, jen využívat již naprogramované metody. Základní učebnice, na kterou budeme v textech odkazovat je Konečná K., et Koláček J.: Výuka jazyka R. Pokud by Vás to zaujalo, tak rozšířené informace najdete zde. Materiály průběžně ukládáme a opravujeme v naší učebnici, která je zde.

Naše učebnice k R je zde.

Odkaz na stránku s cvičnými daty je zde.

Požadavky k zápočtu a zkoušce ze základního kurzu jsou zde.

Úvod

Základem zde představené statistiky je (při maximálním zjednodušení) přesvědčení o pozitivní existenci světa a jeho možnosti objektivního poznání na základě kritického (racionálního) vyhodnocení empirických dat – neumělecky a zmateně je to vysvětleno zde:

Data

typy dat

Principy funkcionality MS Excel

instalace doplňků MS Excel, karta Vývojář
označování dat
mazání a vkládání dat, vyjmutí
seřazování dat: ve sloupcích – jeden sloupec, všechny sloupce, filtr
syntaxe vzorců: operátory, závorky, buňka, „roztahování“ vzorců, fixace buněk

Práce s daty v MS Excel**

databáze

Soubory dat

základní soubor a výběrové soubory

Charakteristiky souboru dat

Charakteristiky získaného souboru dat bývají podceňovány, nicméně jejich význam je nenahraditelný a u nich by mělo začít každé další zpracování. Podávají nám sumarizované a reprezentativní informace o obsáhlých a okometricky nepojmutelných závalech obvykle “nic neříkajících” čísel. Drtivou většinu z nich umí vytvořit MS Excel pomocí funkcí, nebo si můžete výpočet jednoduše udělat sami, pokud víte, jak se daná charakteristika vypočítá 🙂. My se na nich naučíme funkcionalitu R.

charakteristiky polohy
charakteristiky variability s úvodem do R
charakteristiky četností

Pravděpodobnost

náhodné veličiny

Hypotézy a jejich testování

Nejprve jsme se pokusili vysvětlit problematiku testování hypotéz.

Jeden a dva výběry

V úvodu jsme si definovali data poměrová, ordinální a nominální (pro ty, co zapomněli, tak je to zde). Jednotlivé statistické testy jsou definovány pro daný typ dat. My začneme shora a podíváme se nejprve na metody testování střední hodnoty a variability poměrových dat – říká se jim parametrické, neboť jsou testovány parametry = průměr a rozptyl. Přehled základních metod je na tabuli.

Základní přehled přednášených parametrických metod.

Obecným předpokladem použití parametrických metod je normalita rozdělení dat. Tento post Vás seznámí s posouzení normality Vašich dat.

Základní parametrické metody pak naleznete zde.

Statistické metody, které jsou definovány na nižší úrovni dat – nominálních nebo ordinálních datech se obvykle označují jako neparametrické. Testovány tak nejsou parametry, ale nejčastěji počet (u nominálních dat) a pořadí (u ordinálních dat).

Kompletní přehled základních neparametrických metod naleznete zde.

Více výběrů

V předchozích částech jsme se seznámili s parametrickými a neparametrickými metodami určenými pro posouzení jednoho nebo dvou výběrů. Pro posouzení více výběrů než jsou dva musíme použít speciální metody určené pro posouzení většího množství výběrů.

Posouzení závislostí proměnných

Dalším typem zpracování kvantitativních dat, se kterým se seznámíme v základním kurzu, je posouzení vzájemných vazeb mezi proměnnými:

kovariance a korelace posuzují vzájemné souvislosti proměnných,
lineární regrese vzájemné závislosti proměnných.

Videoprezentace

Mimo rozsah kurzu jsou pak ještě statistiky, jejichž cílem je posouzení velikosti účinku proměnných.

Hodně solidním přehledem základních metod pro vyhodnocení “jednoduchých” dat je zde.

Bryophytes

Lycopods and Ferns

Gymnosperms

Angiosperms