Charakteristiky souboru dat

Charakteristiky získaného souboru dat bývají podceňovány, nicméně jejich význam je nenahraditelný a u nich by mělo začít každé další zpracování. Podávají nám sumarizované a reprezentativní informace o obsáhlých a okometricky nepojmutelných závalech obvykle “nic neříkajících” čísel. Drtivou většinu z nich umí vytvořit MS Excel pomocí funkcí, nebo si můžete výpočet jednoduše udělat sami, pokud víte, jak se daná charakteristika vypočítá 🙂

Charakteristiky polohy

aritmetický průměr (PRŮMĚR), který je definován na intervalové stupnici, se vypočítá jako podíl součtu měřených hodnot (SUMA) a počtu měření (POČET)

Vzhledem k tomu, že většina lidí má tendenci chápat oblast okolo průměru jako hodnoty nejčastěji se vyskytující v souboru dat, je vhodné průměr doplnit o další ukazatele, které nás z tohoto omylu rychle vyvedou:

medián (MEDIAN), který je definován na ordinální stupnici, je hodnotou, která dělí data do dvou skupin o stejném počtu měření
kvartily (QUARTIL) jsou odvozeny od mediány a jsou to hodnoty, které oddělují nikoliv poloviny měření (jako je tomu o mediánu; medián = hranice 2. kvartilu), ale čtvrtiny
percentily (PERCENTIL) jsou taktéž odvozeninou od mediánu, ale dělí soubor na setiny pozorování
modus (MODE), který je definován na nominální stupnici, je nejčastěji se vyskytující hodnotou; modů může být v souboru více

Nezapomínejme, že svůj význam při hodnocení mají i další základní ukazatelé, kterými jsou minimum (MIN) nebo maximum (MAX). Stejně tak nás často zajímají charakteristiky centrální tendence z výše uvedených ukazatelů, pokud máme větší počet výběrů z jednoho základního souboru. Obvykle se používá k validaci provedeného výběru, kupříkladu s cílem kalibrace. Nejčastěji se v tomto případě používá aritmetického průměru z průměrů vypočítaných z většího počtu měření z více výběrů.

MS Excel umí i některé další funkce, např:

TRIMMEAN, který počítá průměr po odečtení stanoveného procenta maximálních a minimálních měřených hodnot, využít jej tedy můžete, když předpokládáte, že Vaše měření obsahuje odlehlé hodnoty (tedy takové, které na většinu Vámi změřených dat nesedí a předpokládáte, že vznikly souhrou náhod, chybou přístroje, Vaší nepozorností, atp. – k detailnějšímu zamyšlení o odlehlých hodnotách viz lineární regrese)

Charakteristiky variability

Charakteristiky polohy nás informují o “průměrné” charakteristice souboru dat. Získaná data však obvykle obsahují i pozorování, která jsou od hodnoty “průměru” značně odlišná. Charakteristiky vnitřní odlišnosti dat jsou tak stejně důležité. K základním patří:

rozsah, což je oblast dat mezi minimální a maximální hodnotou
rozptyl neboli variance je průměrná hodnota čtverce (POWER) odchylky měření od průměru a počítá se jinak pro základní soubor (VAR.P) a výběrový soubor (VAR.S)
směrodatná odchylka je druhou odmocninou z rozptylu; jelikož se liší výpočet rozptylu pro základní a výběrový soubor, má MS Excel samostatné funkce pro výpočet směrodatné odchylky pro základní soubor (SMODCH.P) a výběrový soubor (SMODCH.VÝBĚR.S), pokud uvádíte průměr, pak byste k němu měli uvést i hodnotu jeho směrodatné odchylky, neboť ta je v jednotkách průměru
variační koeficient je podíl směrodatné odchylky a hodnoty průměru a používá se v případě, když chcete porovnat variabilitu dvou proměnných, které mají různé jednotky

Oblíbenou grafickou vizualizací charakteristik polohy a variability je často krabicový graf (box-plot). Podle typu dat zobrazuje různé z výše uvedených hodnot. Ani jednu variantu však MS Excel jednoduše sám “vyrobit” neumí a je nutné si data sama/sám připravit. Nejjednodušší případ box-plotu, který zobrazuje bodem hodnotu mediánu, “krabicí” 1. a 3. kvartil a “vousy” minimální a maximální hodnotu. V tomto případě vycházíme ze sloupcového grafu, kde boxy jsou de facto částí sloupce podle 1. 2. a 3. kvartilu a “vousy” jsou konstruovány jako chybové úsečky. Z tohoto je zřejmé, že pro konstrukci takového box-plotu potřebujeme umět z dat vypočítat charakteristiky polohy a umět pracovat s grafy MS Excel. Výpočet potřebných údajů je na videu, stejně jako tvorba vlastního box-plotu na druhé části videa.

Výpočet potřebných údajů pro sestavení box-plotu (nějak mi tam ujel medián u veg3, ale to pro naše potřeby nevadí).

Vytvoření box-plotu ze sloupcového skládaného grafu.

Doma si můžete instalovat doplněk Real Statistics, kde je na tento základní případ nástroj BoxPlot – schopen je pracovat i se zápornými daty. “Pravé” box-ploty mohou označovat různé hodnoty (tabule) – k tomu ale budete muset využít jiný software než je MS Excel.

Přehled základnách typů box-plotů.

Charakteristiky četností

Četnost znamená počet výskytu daného jevu (např. samců), hodnoty (např. kategorie “velmi mnoho” nebo teploty 0°C) nebo intervalu hodnot (např. pH 3,5-4) v souboru dat. Četnosti mohou být vyjádřeny dvěma způsoby: (1) absolutně = počet hodnot v každé kategorii (výstupem takovéhoto zpracování je obvykle tabulka), (2) relativně = počet hodnot v každé kategorii je vydělen celkovým počtem měření, tedy celkový součet je 1 nebo 100, pokud každý podíl vynásobíte stem – jde o procenta (těchto výstupů se volí pro konstrukci poměrových grafů – koláčové, skládané sloupcové nebo pruhové).

Základním nástrojem pro četnostní zpracování nominálních, ordinálních a dopředu kategorizovaných intervalových či poměrových dat je kontingenční tabulka. Ty mohou být jednorozměrné = pro jednu proměnnou (tabule) nebo dvou a více rozměrných = pro dvě nebo více proměnných (tabule) – v základním kurzu se naučíme hodnotit jen dvourozměrné tabulky.

Princip tvorby dvourozměrné kontingenční tabulky.

Vícerozměrná kontingenční tabulka.

Nejčastěji používáme dvě proměnné a rozdíly v nich pak testujeme pomocí testu dobré shody. Video základní práce s nominálními a ordinálními daty.

Práce s nominálními a ordinálními daty v kontingenční tabulce.

Pokud chceme stejným způsobem zpracovat intervalová a poměrová data, je z nich třeba nejprve vytvořit kategorie – viz tabule.

Kategorizace poměrových proměnných.

Možností jak toho v MS Excel dosáhnout je více. Nejjednodušeji ale zároveň nejpracnější je ruční nahrazování (takto to dělat nebudeme). Nejrychlejší postup je přes funkci ČETNOSTI (stačí si do volného sloupce stanovit hranice intervalů a MS Excel Vám vyhodí počty měření v jednotlivých intervalech). Druhou, komplikovanější možností je použití funkce COUNTIF, což je asi nejgeniálnější funkce MS Excel, která toho umí strašně mnoho a budete-li v budoucny někdy řešit komplikovanější úlohy, pak se bez ní neobejdete, nicméně zde by to znamenalo počítat četnosti postupně pro jednotlivé kategorie (funkce ČETNOSTI je v tomto případě elegantnější). Postup je zdlouhavý a my jej dělat nebudeme, pokud se to chcete naučit tak tady je externí videonávod a to, co potřebujete vědět, je ve stopáži 27:50 až 39:20. Obě výše uvedené funkce Vám však vrátí jednorozměrnou kontingenční tabulku, což bude často problém pro Vaše další výpočty – Vy často budete chtít přiřadit kategorii ke konkrétnímu měření. Toho lze dosáhnout funkcí, kterou už známe z databází, a to SVYHLEDAT, kde jako typ zadáte hodnotu 1 (jinak je postup stejný jako u spojování tabulek, POZOR!!! zadává se spodní hranice intervalu) – video.

Použití funkce SVYHLEDAT pro vytvoření kategorií.

Kontingenční tabulka má pro poměrová data ještě jednu výhodu. Jste pomocí ní schopni získávat velmi rychle charakteristiky polohy i variability pro Vámi zvolené kategorie – model využití je na videu.

Kategorizované charakteristiky polohy a variability v kontingenční tabulce.

Druhým nástrojem pro posouzení četností je histogram. Jedná se o graf četností. Obvykle na ose x jsou kategorie a na osu y jsou vynášeny hodnoty četností. Stejně jako u kontingenčních tabulek, tyto četnosti mohou být vyjádřeny absolutně nebo relativní stupnici. Lze do jednoho histogramu vynést více proměnných (měřených na stejné stupnici a kategorizovaných do stejných intervalů či kategorií). Samozřejmě, že když se jedná o ordinální nebo kategorizovaná poměrová data, tak na ose x jsou kategorie řazeny obvykle vzestupně. Vytvoření histogramu v MS Excel není v základu možné. Lze k jeho vytvoření použít výše zmíněné funkcí četnosti COUNTIF. Ale optimální je využití kategorizace provedené přes SVYHLEDAT. Užití si ukažme na pokračování příkladu ke kategorizaci poměrové proměnné – video.

Vytvoření histogramu v MS Excel.

Další možností je využití vytvoření histogramu přes kartu Vložit – histogram nebo nástroje Histogram na kartě Analýza dat, ale k ní se ale dostaneme až časem.

Dalším způsobem vyjádření četností histogramem je tzv. kumulativní histogram. V něm jsou postupně načítány hodnoty předchozích k následujícím kategoriím. Pokračujme v předchozím příkladu na videu. Kumulativní relativní četnosti budeme potřebovat při výpočtech nutných k posouzení normality dat.

Vytvoření histogramu kumulativních četností.

Histogramů se také často používá, když chceme rychle okometricky posoudit, jaké rozložení naše hodnoty mají. K tomu se dostaneme u náhodných veličin.

Bryophytes

Lycopods and Ferns

Gymnosperms

Angiosperms

Charakteristiky souboru dat

Charakteristiky polohy

Charakteristiky variability

Charakteristiky četností

Related

Charakteristiky polohy

Charakteristiky variability

Charakteristiky četností

Share this:

Related