Základní statistika

Pro základní kurz je povinnou učebnicí tento materiál, tedy část tohoto webu worldofplants.net věnovaná základnímu kurzu. Pokud potřebujete tištěný materiál, tak nejvýhodnější je použít skripta Lepš, J. (1996). Biostatistika. BF JU v Č.B. Ta je Vám dostupná v dostatečném množství v univerzitní knihovně (nebo ke stažení v elektronické podobě je zde). V roce 2014 vyšla tato učebnice v novém vydání, už s příklady řešení úloh ve STATISTICA, v roce 2016 vyšla jako kniha s výpočty ve STATISTICA a R.

V úvodních hodinách se kromě teoretického představení problému zpracování dat budeme věnovat ovládání programů, které budeme v kurzu používat, tedy MS Excel a R.

MS Excel budeme používat jelikož se jedná o modelová software typu tabulkového procesoru, ve kterém lze triviálně data vkládat a upravovat (ostatní systémy pak mají podobné software, jejichž ovládání je analogické MS Excel), předpokládá se, každý s tímto software nebo s analogickým tabulkovým procesorem již pracoval. Pokud s ním neumíte dělat, nemělo by to tedy vadit, ale pro jistotu – základní tutoriál je tady, podobně můžete použít třeba i tohle. U části metod budeme v MS Excel potřebovat nainstalovat doplňky a zobrazit kartu Vývojář.

R je je aktuálně nejrozšířenější plně free software určený pro analýzu dat. Naučíme se jeho ovládání a práci se základními statistickými metodami. Vybrán byl z důvodu plné volnosti jeho použití a dostupnosti na všech hlavním systémových platformách.

Požadavky k zápočtu a zkoušce ze základního kurzu jsou zde.

 

Data

Principy funkcionality MS Excel

  • instalace doplňků MS Excel, karta Vývojář
  • označování dat
  • mazání a vkládání dat, vyjmutí
  • seřazování dat: ve sloupcích – jeden sloupec, všechny sloupce, filtr
  • syntaxe vzorců: operátory, závorky, buňka, „roztahování“ vzorců, fixace buněk

Práce s daty v MS Excel**

Soubory dat

Charakteristiky souboru dat

Charakteristiky získaného souboru dat bývají podceňovány, nicméně jejich význam je nenahraditelný a u nich by mělo začít každé další zpracování. Podávají nám sumarizované a reprezentativní informace o obsáhlých a okometricky nepojmutelných závalech obvykle “nic neříkajících” čísel. Drtivou většinu z nich umí vytvořit MS Excel pomocí funkcí, nebo si můžete výpočet jednoduše udělat sami, pokud víte, jak se daná charakteristika vypočítá 🙂. My se na nich naučíme funkcionalitu R.

Pravděpodobnost

Testování hypotéz

Nejprve se podívejme na obecný úvod do problematiky testování hypotéz.

Parametrické metody

Parametrické metody jsou založeny na testování parametrů – těmi jsou nejčastěji průměr a rozptyl. Definovány tak jsou na poměrových typech dat. Přehled jejich základní problematiky je na tabuli.

Základní přehled přednášených parametrických metod.

Parametrické metody dále obvykle předpokládají normalitu rozdělení dat. Tento post Vás seznámí s posouzení normality Vašich dat.

Základní parametrické metody naleznete zde.

Neparametrické metody

Neparametrické metody jsou definovány na nižší úrovni dat – nominálních nebo ordinálních datech. Testovány tak nejsou parametry, ale nejčastěji počet (u nominálních dat) a pořadí (u ordinálních dat).

Kompletní přehled základních neparametrických metod naleznete zde.

Více výběrů

V předchozích částech jsme se seznámili s parametrickými a neparametrickými metodami určenými pro posouzení jednoho nebo dvou výběrů. Pro posouzení více výběrů než jsou dva musíme použít speciální metody určené pro posouzení většího množství výběrů.

Posouzení závislostí proměnných

Dalším typem zpracování kvantitativních dat, se kterým se seznámíme v základním kurzu, je posouzení vzájemných vazeb mezi proměnnými:

Mimo rozsah kurzu jsou pak ještě statistiky, jejichž cílem je posouzení velikosti účinku proměnných.