Charakteristiky četností
Četnost znamená počet výskytu daného jevu (např. samců), hodnoty (např. kategorie “velmi mnoho” nebo teploty 0°C) nebo intervalu hodnot (např. pH 3,5-4) v souboru dat. Četnosti mohou být vyjádřeny dvěma způsoby: (1) absolutně = počet hodnot v každé kategorii (výstupem takovéhoto zpracování je obvykle tabulka), (2) relativně = počet hodnot v každé kategorii je vydělen celkovým počtem měření, tedy celkový součet je 1 nebo 100, pokud každý podíl vynásobíte stem – jde o procenta (těchto výstupů se volí pro konstrukci poměrových grafů – koláčové, skládané sloupcové nebo pruhové).
Základním nástrojem pro četnostní zpracování nominálních, ordinálních a dopředu kategorizovaných intervalových či poměrových dat je kontingenční tabulka. Ty mohou být jednorozměrné = pro jednu proměnnou (tabule) nebo dvou a více rozměrných = pro dvě nebo více proměnných (tabule) – v základním kurzu se naučíme hodnotit jen dvourozměrné tabulky.
Princip tvorby dvourozměrné kontingenční tabulky.
Vícerozměrná kontingenční tabulka.
Nejčastěji používáme dvě proměnné a rozdíly v nich pak testujeme pomocí testu dobré shody. Video základní práce s nominálními a ordinálními daty.
Práce s nominálními a ordinálními daty v kontingenční tabulce.
Pokud chceme stejným způsobem zpracovat intervalová a poměrová data, je z nich třeba nejprve vytvořit kategorie – viz tabule.
Kategorizace poměrových proměnných.
Možností jak toho v MS Excel dosáhnout je více. Nejjednodušeji ale zároveň nejpracnější je ruční nahrazování (takto to dělat nebudeme). Nejrychlejší postup je přes funkci ČETNOSTI (stačí si do volného sloupce stanovit hranice intervalů a MS Excel Vám vyhodí počty měření v jednotlivých intervalech). Druhou, komplikovanější možností je použití funkce COUNTIF, což je asi nejgeniálnější funkce MS Excel, která toho umí strašně mnoho a budete-li v budoucny někdy řešit komplikovanější úlohy, pak se bez ní neobejdete, nicméně zde by to znamenalo počítat četnosti postupně pro jednotlivé kategorie (funkce ČETNOSTI je v tomto případě elegantnější). Postup je zdlouhavý a my jej dělat nebudeme, pokud se to chcete naučit tak tady je externí videonávod a to, co potřebujete vědět, je ve stopáži 27:50 až 39:20. Obě výše uvedené funkce Vám však vrátí jednorozměrnou kontingenční tabulku, což bude často problém pro Vaše další výpočty. Vy budete nejčastěji chtít přiřadit kategorii ke konkrétnímu měření. Toho lze dosáhnout funkcí, se kterou jsme se seznámili v databázích, a to SVYHLEDAT, kde jako typ zadáte hodnotu 1 (jinak je postup stejný jako u spojování tabulek, POZOR!!! zadává se spodní hranice intervalu) – video.
Použití funkce SVYHLEDAT pro vytvoření kategorií.
Kontingenční tabulka má pro poměrová data ještě jednu výhodu. Jste pomocí ní schopni získávat velmi rychle charakteristiky polohy i variability pro Vámi zvolené kategorie – model využití je na videu.
Kategorizované charakteristiky polohy a variability v kontingenční tabulce.
Práce s tabulkami v R
Už v práci s tabulkami v MS Excel je jasné, že musíme dodržovat strukturu “databázové” tabulky. Jedině tak získáme kontingenční tabulku MS Excel a budeme schopni pracovat s tabulkami v R. V R to není zdaleka tak jednoduché, jako MS Excel, takže pro tvorbu tabulek, které budou vstupovat dále do analýz budete dělat v MS Excel, ale úpravu a tvorbu si chtě-nechtě musíme ukázat i v R – k tomu je určena naše 3. Lekce v R.
Histogram – grafické vyjádření četností
Druhým nástrojem pro posouzení četností je histogram. Jedná se o graf četností. Obvykle na ose x jsou kategorie a na osu y jsou vynášeny hodnoty četností. Stejně jako u kontingenčních tabulek, tyto četnosti mohou být vyjádřeny absolutně nebo relativní stupnici. Lze do jednoho histogramu vynést více proměnných (měřených na stejné stupnici a kategorizovaných do stejných intervalů či kategorií). Samozřejmě, že když se jedná o ordinální nebo kategorizovaná poměrová data, tak na ose x jsou kategorie řazeny obvykle vzestupně. Dalším způsobem vyjádření četností histogramem je tzv. kumulativní histogram. V něm jsou postupně načítány hodnoty předchozích k následujícím kategoriím.
Histogramů se také často používá, když chceme rychle okometricky posoudit, jaké rozložení naše hodnoty mají. K tomu se dostaneme u náhodných veličin.
Histogram v R
Vytvoření histogramu v R se děje pomocí funkce hist() nebo histogram() v package lessR.
Histogram v MS Excel**
Vytvoření histogramu v MS Excel není v základu možné. Lze k jeho vytvoření použít výše zmíněné funkcí četnosti COUNTIF. Ale optimální je využití kategorizace provedené přes SVYHLEDAT. Užití si ukažme na pokračování příkladu ke kategorizaci poměrové proměnné – video.
Vytvoření histogramu v MS Excel.
Další možností je využití vytvoření histogramu přes kartu Vložit – histogram nebo nástroje Histogram na kartě Analýza dat, ale k ní se ale dostaneme až časem.
Vytvoření kumulativního histogramu si ukážeme pokračováním z předchozího příkladu, které je na videu. Kumulativní relativní četnosti budeme potřebovat při výpočtech nutných k posouzení normality dat.
Vytvoření histogramu kumulativních četností.