Normální rozdělení

Parametrické metody hodnocení souborů dat předpokládají, mimo jiné, normální rozložení zpracovávaných dat. Použít je můžeme jen když máme poměrová (intervalová) data a dostatečný počet měření (u nízkých počtů měření obvykle nebudeme moci potvrdit normální rozdělení). V tomto měření by pak, vulgárně řečeno, měl být nízký počet velmi nízkých i velmi vysokých měřených hodnot. Četnosti měření by od velmi nízkých a velmi vysokých měly měly postupně růst k hodnotě průměru, která je velmi blízká mediánu a modu.

Toto rozdělení je základním rozdělením dat, nazývá se Gaussovým a má zvonovitý charakter. Platí, že hustota pravděpodobnosti je u něj symetrická. K výpočtu hustoty se používá Ludolfova čísla, základu přirozeného logaritmu a parametrů – průměru a rozptylu – průměr posouvá křivku po ose x a rozptyl udává “výšku” Gaussovy křivky.

Standardizované normální rozdělení**

Standardizace je postup, jímž získáváme novou proměnnou, která je odvozena z měřených hodnot původní proměnné, ale její (tedy té nové proměnné založené na datech původní proměnné) průměr je 0 a rozptyl se směrodatnou odchylkou jsou 1. Výpočet standardizace provedeme tak, že od každé měřené hodnoty proměnné odečteme průměrnou hodnotu všech měření proměnné a tento rozdíl vydělíme směrodatnou odchylku průměru měřené proměnné (detailněji v navazujícím kurzu).

Posouzení normality

  1. Okometrické posouzení histogramu, v R i MS Excel jsme již histogram řešili (viz dříve).
  2. Okometrické posouzení Q-Q grafu. Na ose x je teoretické rozdělení mých dat a na ose y “reálné” rozdělení mých dat, jednotlivá měření jsou pak vynesena jako body kombinace reálné a očekávané hodnoty měření – pokud by se jednalo o normální rozdělení, pak by všechny body měly ležet na diagonále grafu – čím větší odchylky od diagonály, tím větší odchylka od normality. V R se používá příkazů qqnorm() a qqline () – více v páté lekci R. Tvorba Q-Q grafu v MS Excel** je na videu.

Návod na vytvoření Q-Q grafu v MS Excel.

3. Posouzení šikmosti a špičatosti rozdělení, jejichž vysvětlení je uvedeno na tabuli. Za špičatá, respektive šikmá rozdělení, lze považována taková, jejichž hodnoty jsou nižší než -2 nebo vyšší než +2. Výpočet v R je v páté lekci R.

Špičatost a šikmost v porovnání s normálním rozdělením.

  • Šikmost (SKEW) se vypočítá jako podíl třetího centrálního momentu (= třetí mocniny rozdílu všech měřených hodnot a průměru) a třetí mocniny směrodatné odchylky, normální rozdělení má hodnotu 0, rozdíl mé hodnoty od nulové lze testovat a kritické hodnoty jsou pro různý počet n tabelovány např. zde,
  • Špičatost (KURT) se vypočítá jako podíl čtvrtého centrálního momentu a čtvrté mocniny rozptylu od níž odečítáme hodnotu 3, pokud je hodnoty větší než 0, pak je rozdělení našich dat špičaté, jinak je ploché, opět lze hodnotu špičatosti testovat, kritické hodnoty zde.

4. Test normality rozdělení. Normalitu rozdělení lze i testovat. V praxi se používá mnoho testů – nejčastěji chí-kvadrát (který si ukážeme později), Kolmogorov-Smirnov test (pro nějž máte dobrovolné návodné video v MS Excel níže) a Shapiro–Wilk test – jež se naučíme v R v páté lekci R.

 

Pro MS Excel** je nejvýhodnější použít Kolmogorov-Smirnov test, což je neparametrický test, který je obdobou chí-kvadrát testu, více v neparametrických metodách. Na tomto konkrétním místě nám jde o techniku výpočtu – video.

Kolmogorov-Smirnov test použitý k testu normality dat.

Doma můžete použít RealStatistics s těmito moduly.

Ve Vaší praxi budete tímto rozdělením aproximovat i diskrétní data, podmínkou použití ale bude, že k dispozici budete mít opravdu mnoho měřených hodnot.