Charakteristiky variability

Charakteristiky variability

Charakteristiky polohy nás informují o “průměrné” charakteristice souboru dat. Získaná data však obvykle obsahují i pozorování, která jsou od hodnoty “průměru” značně odlišná. Charakteristiky vnitřní odlišnosti dat jsou tak stejně důležité. K základním, definovaným na intervalových datech patří:

  • rozsah, což je oblast dat mezi hodnotami minimum (MIN) a maximum (MAX)
  • rozptyl neboli variance je průměrná hodnota čtverce (POWER) odchylky měření od průměru a počítá se jinak pro základní soubor (VAR.P) a výběrový soubor (VAR.S)
  • směrodatná odchylka je druhou odmocninou z rozptylu; jelikož se liší výpočet rozptylu pro základní a výběrový soubor, má MS Excel samostatné funkce pro výpočet směrodatné odchylky pro základní soubor (SMODCH.P) a výběrový soubor (SMODCH.VÝBĚR.S), pokud uvádíte průměr, pak byste k němu měli uvést i hodnotu jeho směrodatné odchylky, neboť ta je v jednotkách průměru
  • variační koeficient je podíl směrodatné odchylky a hodnoty průměru a používá se v případě, když chcete porovnat variabilitu dvou proměnných, které mají různé jednotky

Variability ordinální dat lze posoudit pomocí kvantilů odvozených od mediánu:

  • kvartily (QUARTIL) jsou odvozeny od mediánu a jsou to hodnoty, které oddělují nikoliv poloviny měření (jako je tomu o mediánu; medián = hranice 2. kvartilu), ale čtvrtiny
  • percentily (PERCENTIL) jsou taktéž odvozeninou od mediánu, ale dělí soubor na setiny pozorování, stejně tak se používají decily

Oblíbenou společnou grafickou vizualizací charakteristik polohy a variability je krabicový graf (box-plot). Podle typu dat zobrazuje různé z výše uvedených hodnot.

Přehled základnách typů box-plotů.

Krabicový graf v R

My využijeme situace, že MS Excel automatickou tvorbu klasického krabicového grafu v nabídce nemá, a naučíme se ovládat R (1. Lekce).

 

Krabicový graf v MS Excel**

MS Excel jednoduše sám “vyrobit”  krabicový graf neumí a je nutné si data sama/sám připravit. Nejjednodušší případ box-plotu, který zobrazuje bodem hodnotu mediánu, “krabicí” 1. a 3. kvartil a “vousy” minimální a maximální hodnotu. V tomto případě vycházíme ze sloupcového grafu, kde boxy jsou de facto částí sloupce podle 1. 2. a 3. kvartilu a “vousy” jsou konstruovány jako chybové úsečky. Z tohoto je zřejmé, že pro konstrukci takového box-plotu potřebujeme umět z dat vypočítat charakteristiky polohy a umět pracovat s grafy MS Excel. Výpočet potřebných údajů je na videu, stejně jako tvorba vlastního box-plotu na druhé části videa.

Výpočet potřebných údajů pro sestavení box-plotu (nějak mi tam ujel medián u veg3, ale to pro naše potřeby nevadí).

Vytvoření box-plotu ze sloupcového skládaného grafu.

Doma si můžete instalovat doplněk Real Statistics, kde je na tento základní případ nástroj BoxPlot – schopen je pracovat i se zápornými daty. “Pravé” box-ploty mohou označovat různé hodnoty (tabule) – k tomu ale budete muset využít jiný software než je MS Excel.