Základní statistika

Pro základní kurz je povinnou učebnicí pouze učebnice Lepš (1996). Biostatistika. BF JU v Č.B. Ta je Vám dostupná v dostatečném množství v univerzitní knihovně (nebo ke stažení v elektronické podobě je zde). Je psána lidsky a doplněna řadou konkrétních příkladů – nic lepšího, co by bylo česky, na jednom místě a zároveň dostupné, jsme prozatím nenašli. Jejím problémem ale je, že je tam spousta věcí, které nemá smysl (na rozdíl od přesvědčení autora) v základním kurzu probírat, proto ji použijeme jen z části. Vy, ze sociálních a ekonomických věd, se neděste – metodika zpracování Vašich dat je na úrovni kurzů, BP i DP stejná – příklady jsme se snažili uvést a jsou postupně doplňovány o další. V roce 2014 vyšla tato učebnice v novém vydání, už s příklady řešení úloh ve STATISTICA, v roce 2016 vyšla jako kniha s výpočty ve STATISTICA a R. My se ale v kurzu základní statistiky budeme držet starého vydání, není sebemenší důvod pracovat s novými. Výpočty budeme provádět v MS Excel, který je prozatím nejdostupnější variantou ve škole, doma i ve Vašem zaměstnání.

U pojmů je odkazováno na stránky, vzorce a obrázky z příslušné učebnice (předpokladem úspěšného studia je, že se na tyto odkazy podíváte a texty přečtete) a pak na návody ovládání daných prvků v MS Excel, který je Vaším primárním software pro řešení statistických úloh. Pokud s ním neumíte dělat, tak základní tutoriál je tady, podobně můžete použít třeba i tohle. U části metod budeme v MS Excel potřebovat nainstalovat doplňky a zobrazit kartu Vývojář.

Požadavky k zápočtu a zkoušce ze základního kurzu jsou zde.

Základní pojmy

Absolutním základem pro práci s daty je poznání podstaty typu dat a charakteru výběrového souboru.

Testování hypotéz

Statistické hypotézy vycházejí z předpokladu, že hypotézu nelze na základě dat dokázat, nicméně ji lze vyvrátit. Proto se formulují hypotézy, které se označují H0, tedy nulové hypotézy, které jsou obvykle opakem toho, co se snažíme prokázat. H0 obvykle zní “není rozdíl mezi skupinou X a skupinou Y”. Pokud jsme schopni na základě dat nulovou hypotézu zamítnout, mohu přijmout ji negující hypotézu (alternativní, HA nebo H1). Ve zbytku této části je to vysvětleno na typickém příkladu dvouvýběrového t-testu, ke kterému se dostaneme v konkrétní podobě za chvíli.

Přijmutí nebo zamítnutí nulové hypotézy vychází z porovnání vypočtené hodnoty statistické metody a kritické hodnoty dané metody (hodnota je dána funkcí a je tabelována). Je-li hodnota vypočtená z našich dat menší než kritická, pak nulovou hypotézu nemohu zamítnout a opačně (toto neplatí vždy – výjimkou jsou např. Mann-Whitney a Wilcoxon) – vychází z funkcí hustoty rozdělení pravděpodobnosti.
Kritická hodnota statistické metody je závislá na počtu stupňů volnosti, které se odvíjejí od počtu pozorovaných kategorií, a mnou připustitelné míry nepravděpodobnosti výskytu hodnoty výsledku statistické metody vypočítané z mých dat – tou je 5%, 1% nebo 0,1%. Čím je tato hodnota nižší, tím podstupuji větší riziko, že zamítnu skutečnost, která je pravdou (= chyba 1. druhu), na druhou stranu tím snižuji pravděpodobnost, že bych zamítl hypotézu, která by nebyla pravdou (= chyba 2. druhu). Samozřejmě to platí i opačně. Vše je shrnuto na tabuli.

Další významnou charakteristikou při testování hypotéz je počet stupňů volnosti, jejichž vliv je znázorněn na tabuli.

Existují i případy, kdy nás nezajímá shoda, ale H0 je postavena na nerovnosti. Pak se liší testování, pač jde o testování jednostranné – modře je tona tabuli.

Více naleznete ve zkušební literatuře – Lepš, 1996, s. 23 – první 4 odstavce, s. 25 – Tab. 2-1.

Metody statistického testování lze rozdělit do dvou kategorií:

Metody, kde máme více výběrů než dva, jsme umístili na samostatnou kartu Více výběrů

Posouzení závislostí proměnných

Dalším typem zpracování kvantitativních dat, se kterým se seznámíme v základním kurzu, je posouzení vzájemných vazeb mezi proměnnými:

Mimo rozsah kurzu jsou pak ještě statistiky, jejichž cílem je posouzení velikosti účinku proměnných.