Kejkle s daty

Transformace a metody “standardizace”

Transformace dat se provádí relativně velmi často, a to především ve dvou případech – buď potřebujeme “zlineárnit” závislosti proměnných (např. u lineární regrese) nebo častěji přiblížit rozdělení získaných dat normálnímu rozdělení (abychom mohli použít statistiky, které předpokládají normalitu v datech – např. u ANOVA). Přehled tří nejčastěji používaných transformací uvádí Lepš (1996, s. 99-102 a 113-116). Transformace dat ve STATISTICA je na videu a je podobná jako v práce v MS Excel.

 

Transformace dat ve STATISTICA.

 

Dalšími úpravami dat, které některé statistické metody vyžadují jsou centrování, standardizace a normalizace (Haruštiaková et al., 2012, kap. 2.2.2 a 2.2.3).

Například u mnohonásobné lineární regrese je jedno, jestli jsou jednotlivé vysvětlující proměnné na různých škálách (pH nabývá jiných absolutních hodnot než teplota nebo koncentrace iontů), nicméně u mnohorozměrných metod to “jedno” není (především to platí pro shlukovou analýzu) a jednotlivé proměnné je třeba převést na jednotkovou stupnici, tedy “zrelativnit” vlastní měřená data. Nejvýhodnějším postupem je tzv. standardizace směrodatnou odchylkou (Z-skóre), kdy od každé měřené hodnoty proměnné odečtu průměrnou hodnotu všech měření a tento rozdíl vydělím směrodatnou odchylku tohoto průměru. Ve výsledku pak získám proměnnou jejíž průměr je 0 a směrodatná odchylka 1. Pokud to provedu se všemi vysvětlujícími proměnnými, pak jsem je převedl na stejné měřítko. MS Excel na ni má samostatnou funkci – standardize. Standardizací ale existuje větší množství.

V některých případech však potřebuji, aby byly převedeny měřené proměnná na jednotné měřítko, ale výsledné hodnoty zůstaly kladné. Nejčastěji se tak děje pomocí lineární normalizace, jejímž výsledkem jsou hodnoty od 0 do 1. Používá se různých postupů – nejjednodušším je min-max normalizace označovaná i jako standardizace rozpětím:

xi’ = (xi – min(x1, . . . xn))/(max(x1, . . . xn) – min(x1, . . . xn))

Matematicky nejjednodušším převedením na relativní měřítko je centrování, které zahrnuje pouze odečtení průměru proměnné od konkrétní měřené hodnoty.

Komplikované je rozhodování o transformacích v mnohorozměrných analýzách, kdy vysvětlovanou proměnnou není jedna měřená charakteristika, ale druhové složení (Lepš et Šmialuer, 2000, kapitola 1.11.). POZOR – pokud v botanice používáte Braun-Blanquetovu stupnici, kterou kódujete 1 až 7 nebo 9, tak stupnice už v podstatě logaritmická je.

Chybějící data

Je obvyklé, že v měřeních máme nějaká data chybějící – prostě z nějakých příčin nebylo možné měření uskutečnit – respondent odmítl odpovědět, louže pro odebírání vody vyschla, zapomněl jsem doma metr. Nemělo by se to stát, ale co když se to stane? Možná řešení uvádí v přehledu Haruštiaková et al. (2012, kap. 2.2.1)