Charakteristiky souboru dat

Charakteristiky získaného souboru dat bývají podceňovány, nicméně jejich význam je nenahraditelný a u nich by mělo začít každé další zpracování. Podávají nám sumarizované a reprezentativní informace o obsáhlých a okometricky nepojmutelných závalech obvykle “nic neříkajících” čísel. Drtivou většinu z nich umí vytvořit MS Excel pomocí funkcí, nebo si můžete výpočet jednoduše udělat sami, pokud víte, jak se daná charakteristika vypočítá 🙂

Charakteristiky polohy (Lepš, 1996, s. 7-9)

  • aritmetický průměr, který je definován na intervalové stupnici, se vypočítá jako podíl sumy měřených hodnot a počtu měření

Vzhledem k tomu, že většina lidí má tendenci chápat oblast okolo průměru jako hodnoty nejčastěji se vyskytující v souboru dat, je vhodné průměr doplnit o další ukazatele, které nás z tohoto omylu rychle vyvedou:

  • medián, který je definován na ordinální stupnici, je hodnotou, která dělí data do dvou skupin o stejném počtu měření
  • kvartily jsou odvozeny od mediány a jsou to hodnoty, které oddělují nikoliv poloviny měření (jako je tomu o mediánu; medián = hranice 2. kvartilu), ale čtvrtiny
  • percentily jsou taktéž odvozeninou od mediánu, ale dělí soubor na setiny pozorování
  • modus, který je definován na nominální stupnici, je nejčastěji se vyskytující hodnotou; modů může být více

Nezapomínejme, že svůj význam při hodnocení mají i další základní ukazatelé, kterými jsou minimum nebo maximum. Stejně tak nás často zajímají charakteristiky centrální tendence z výše uvedených ukazatelů, pokud máme větší počet výběrů z jednoho základního souboru. Obvykle se používá k validaci provedeného výběru, kupříkladu s cílem kalibrace. Nejčastěji se v tomto případě používá aritmetického průměru z průměrů vypočítaných z většího počtu měření z více výběrů.

MS Excel umí i některé další funkce, např:

  • trimmean, který počítá průměr po odečtení stanoveného procenta maximálních a minimálních měřených hodnot, využít jej tedy můžete, když předpokládáte, že Vaše měření obsahuje odlehlé hodnoty (tedy takové, které na většinu Vámi změřených dat nesedí a předpokládáte, že vznikly souhrou náhod, chybou přístroje, Vaší nepozorností, atp. – k detailnějšímu zamyšlení o odlehlých hodnotách viz lineární regrese)

Charakteristiky variability (Lepš, 1996, s. 9-12)

Charakteristiky polohy nás informují o “průměrné” charakteristice souboru dat. Získaná data však obvykle obsahují i pozorování, která jsou od hodnoty “průměru” značně odlišná. Charakteristiky vnitřní odlišnosti dat jsou tak stejně důležité. K základním patří:

  • rozsah, což je oblast dat mezi minimální a maximální hodnotou
  • rozptyl neboli variance je průměrná hodnota čtverce odchylky od průměru (Vz. 1-6, Lepš, 1996) a počítá se jinak pro základní soubor a výběrový soubor
  • směrodatná odchylka je druhou odmocninou rozptylu; jelikož se liší výpočet rozptylu pro základní a výběrový soubor, pak má MS Excel samostatné funkce pro výpočet směrodatné odchylky pro základní soubor a výběrový soubor; pokud uvádíte průměr, pak byste k němu měli uvést i hodnotu jeho směrodatné odchylky, neboť ta je v jednotkách průměru
  • variační koeficient je podíl směrodatné odchylky a hodnoty průměru a používá se v případě, když chcete porovnat variabilitu dvou proměnných, které mají různé jednotky

Grafickou vizualizací charakteristik polohy a variability je často krabicový graf (box-plot; Lepš, 1996, s. 18). Podle typu dat zobrazuje různé z výše uvedených hodnot. Ani jednu variantu však MS Excel jednoduše sám “vyrobit” neumí a je nutné si data sama/sám připravit. Nejjednodušší případ boxplotu, který zobrazuje “krabicí” hodnotu mediánu a 1. a 3. kvartilem a “vousy” minimální a maximální hodnotu. V tomto případě vycházíme ze sloupcového grafu, kde boxy jsou de facto částí sloupce podle 1. 2. a 3. kvartilu a “vousy” jsou konstruovány jako chybové úsečky. Z tohoto je zřejmé, že pro konstrukci takového box plotu potřebujeme umět z dat vypočítat charakteristiky polohy a umět pracovat s grafy MS Excel. Video s výpočtem potřebných údajů je zde (nějak mi tam ujel medián u veg3, ale to pro naše potřeby nevadí) a video s tvorbou vlastního box plotu je zde. Doma si můžete instalovat doplněk Real Statistics, kde je na tento základní případ nástroj BoxPlot – schopen je pracovat i se zápornými daty. “Pravé” boxploty mohou označovat různé hodnoty (tabule) – k tomu ale budete muset využít jiný software než je MS Excel.

Charakteristiky četností

Četnost znamená počet výskytu daného jevu (např. samců), hodnoty (např. kategie “velmi mnoho” nebo teploty 0°C) nebo intervalu hodnot (např. pH 3,5-4) v mém souboru dat. Četnosti mohou být vyjádřeny dvěma způsoby: (1) absolutně = počet hodnot v každé kategorii (výstupem takovéhoto zpracování je obvykle tabulka), (2) relativně = počet hodnot v každé kategorii je vydělen celkovým počtem měření, tedy celkový součet je 1 nebo 100, pokud každý podíl vynásobíte stem – jde o procenta (těchto výstupů se volí pro konstrukci poměrových grafů – koláčové, skládané sloupcové nebo pruhové).

Základním nástrojem pro četnostní zpracování nominálních, ordinálních a dopředu kategorizovaných intervalových či poměrových dat je kontingenční tabulka. Ty mohou být jednorozměrné = pro jednu proměnnou nebo dvou a více rozměrných = pro dvě nebo více proměnných (v základním kurzu se naučíme hodnotit jen dvourozměrné tabulky). Nejčastěji používáme dvě proměnné a rozdíly v nich pak testujeme pomocí testu dobré shody.

  • video základní práce s nominálními a ordinálními daty

Pokud chceme stejným způsobem zpracovat intervalová a poměrová data, je z nich třeba nejprve vytvořit kategorie. Možností jak toho v MS Excel dosáhnout je více. Nejjednodušeji ale zároveň nejpracnější je ruční nahrazování (takto to dělat nebudete). Nejrychlejší postup je přes funkci četnosti (stačí si do volného sloupce stanovit hranice intervalů a MS Excel Vám vyhodí počty měření v jednotlivých intervalech). Druhou, komplikovanější možností je použití funkce countif, což je asi nejgeniálnější funkce MS Excel, které toho umí strašně mnoho a budete-li v budoucny někdy řešit komplikovanější úlohy, pak se bez ní neobejdete, nicméně zde se by to znamenalo počítat četnosti postupně pro jednotlivé kategorie (funkce četnosti je v tomto případě elegantnější). Postup je zdlouhavý a my jej dělat nebudeme, pokud se to chcete naučit tak tady je externí návod a to, co potřebujete vědět, je ve stopáži 27:50 až 39:20. Obě výše uvedené funkce Vám však vrátí jednorozměrnou kontingenční tabulku, což bude často problém pro Vaše další výpočty – Vy často budete chtít přiřadit kategorii ke konkrétnímu měření. Toho lze dosáhnout funkcí, kterou už známe z databází, a to svyhledat, kde jako typ zadáte hodnotu 1 (jinak je postup stejný jako u spojování tabulek, POZOR!!! zadává se spodní hranice intervalu). Video s návodem je zde.
Kontingenční tabulka má pro poměrová data ještě jednu výhodu. Jste pomocí ní schopni získávat velmi rychle charakteristiky polohy i variability pro Vámi zvolené kategorie – video s modelem využití je zde.

Druhým nástrojem pro posouzení četností je histogram (Lepš, 1996, s. 16). Jedná se o graf četností. Obvykle na ose x jsou kategorie a na osu y jsou vynášeny hodnoty četností. Stejně jako u kontingenčních tabulek, tyto četnosti mohou být vyjádřeny absolutně nebo relativní stupnici. Lze do jednoho histogramu vynést více proměnných (měřených na stejné stupnici a kategorizovaných do stejných intervalů či kategorií. Samozřejmě, že když se jedná o ordinální nebo kategorizovaná poměrová data, tak na ose x jsou kategorie řazeny obvykle vzestupně. Vytvoření histogramu v MS Excel není v základu možné. Lze k jeho vytvoření použít výše zmíněné funkcí četnosti countif. Ale optimální je využití kategorizace provedené přes svyhledat. Užití si ukažme na pokračování příkladu ke kategorizaci poměrové proměnné. Další možností je využití nástroje na kartě Analýza dat, a ní se ale dostaneme až časem.

Dalším způsobem vyjádření četností histogramem je tzv. kumulativní histogram. V něm jsou postupně načítány hodnoty předchozích k následujícím kategoriím. Pokračujme v předchozím příkladu.

Histogramů se často používá, když chceme rychle okometricky posoudit, jaké rozložení naše hodnoty mají. K tomu se dostaneme u náhodných veličin.